La Coherencia No Es Corrección: Por Qué un Paper Necesita Tesis Comprobables, No Prosa Impecable
Hace unos días leí un paper. El título por sí solo ya tendría que haberme puesto en guardia: Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Cuarenta páginas colgadas en Zenodo, con DOI, con ORCID, y con un andamiaje de referencias que remiten todas al propio programa de investigación del autor, la Architecture of Limitation. Tiene pinta de cosa seria. Y al leerlo, la prosa fluye, nunca se contradice, anticipa sus propias objeciones y las desactiva con elegancia.
Y sin embargo, al terminarlo, no había nada a lo que agarrarme. No porque fuera difícil —lo es, deliberadamente—, sino porque en ningún momento afirmaba algo que yo pudiera probar, comprobar o refutar desde fuera de su propio texto. Era impecable y vacío a la vez. Y lo más revelador es que el paper describe su propio modo de fallo sin reconocerse jamás en el espejo.
Vale la pena explicar por qué, porque el patrón es cada vez más común, y en la era de los modelos de lenguaje detectarlo se ha convertido, casi sin que nos diéramos cuenta, en una competencia de ingeniería de primer orden.
El grano de verdad, primero
Déjame ser justo antes de ser duro. El paper tiene una buena idea, y la pongo por delante para que el resto no suene a hombre de paja.
La idea es esta: la expresión «human in the loop» funciona muchas veces como un placeholder simbólico. Metemos a un humano en una cadena de decisión y declaramos el sistema seguro, sin definir nunca bajo qué condiciones esa participación humana es realmente significativa, proporcionada o responsable. El paper propone sustituirla por una noción de stewardship: lo que aporta el humano no es supervisión, es exposición a la consecuencia. El modelo genera; el humano carga con ello. La asimetría es estructural, no moral.
Estoy de acuerdo. Y conecta directamente con algo que defiendo desde hace tiempo: la IA aumenta, no sustituye. La parte de la cadena que no puedes externalizar es precisamente quien carga con el coste del error y quien mantiene una relación adversarial con la realidad cuando el sistema se desvía. Esa intuición es sólida.
El problema es todo lo que la rodea.
El punto central: el paper es su propio modo de fallo
Aquí viene lo que de verdad me empujó a escribir este post.
El paper, citando trabajos anteriores del mismo autor, acuña dos términos para describir cómo fallan los sistemas de razonamiento bajo presión:
- «Coherence inflation»: el momento en que la estructura recuperable de un argumento empieza a parecer explicación completa, y la coherencia interna creciente se confunde con certeza metafísica.
- «Hallucination as geometric overflow»: texto que conserva fluidez, consistencia y organización explicativa mientras se aleja de las fronteras que originalmente fundamentaban el razonamiento.
Vuelve a leer esas dos definiciones. Son una descripción exacta del paper que las contiene.
Cuarenta páginas de prosa fluida y coherente por dentro que jamás pisan tierra. Cada referencia de la bibliografía es otro documento del mismo autor, subido al mismo repositorio, dentro del mismo marco inventado. Es un bucle de citación cerrado: el texto se valida a sí mismo con su propio vocabulario. El paper incluso anticipa esta acusación —escribe literalmente que «los lectores pueden interpretar este trabajo como recursivamente autovalidante»— y la despacha diciendo que no es su intención. Pero reconocer un círculo vicioso no lo rompe. La bibliografía sigue mordiéndose la cola.
Y el detalle que lo corona: un DOI de Zenodo no es revisión por pares. Zenodo asigna un DOI a cualquier cosa que subas: un PDF, un dataset, un meme. Es un servicio de archivo, no un sello de calidad. Toda la parafernalia de autoridad académica —ORCID, DOI, secciones numeradas en cifras romanas— es estética, no sustancia.
Lo que te queda es un artefacto que pasa sus propios tests porque los escribió él, y que no puede fallar ninguno porque nunca afirma nada comprobable.
La analogía de ingeniería
Si eres ingeniero, ya tienes el modelo mental para entender exactamente lo que pasa aquí.
Imagina una PR que compila limpia, pasa el linter y tiene el CI en verde. Todos los tests pasan. Entonces abres los tests y descubres que los escribió el propio código que prueban, y que cada aserción es una tautología: expect(x).toBe(x). El build está verde. La cobertura es del 100%. Y el sistema no hace absolutamente nada.
Eso es el paper. Coherencia sintáctica perfecta, cero contacto con un oráculo externo.
En software tenemos un instinto muy afinado para esto porque nos ha mordido un montón de veces. Sabemos que un test que siempre pasa no vale nada. Sabemos que un sistema que solo se valida contra sí mismo —sin entorno de staging, sin datos reales, sin un usuario que se queje— puede estar profundamente roto y parecer perfectamente sano. Una compilación limpia no es corrección. El verde del CI no es verdad. Es consistencia interna, que es una propiedad mucho más barata y mucho menos valiosa.
La filosofía y la ciencia tienen el mismo instinto, y tiene nombre: falsabilidad. Una afirmación que no puede formularse de manera que pudiera resultar falsa no es que sea falsa; es que, en palabras de Pauli, «not even wrong». Ni siquiera entra en el juego. No hay nada que discutir, porque no hay nada que el mundo pueda contradecir.
Qué hace sólido a un paper
Aquí quiero ser constructivo, porque lo fácil sería quedarse en el «esto es paja». La pregunta útil es: ¿qué necesitaría para ser sólido?
Tres cosas, en orden de fuerza decreciente.
1. Una tesis comprobable, con experimentos, datos y resultados
El estándar de oro. Afirmas algo sobre el mundo, diseñas una manera de medirlo, recoges datos, y los resultados o bien sostienen la tesis o la tumban. La clave es que otra persona, desde fuera, pueda reproducirlo y llegar a su propia conclusión. Los datos no son tuyos; son de quien quiera replicarlos.
Hace unas semanas escribí sobre un paper de alineación de IA que trata el sistema desplegado como una distribución de probabilidad sobre trayectorias y define la alineación como pertenencia topológica a un conjunto seguro. No hace falta que sigas la matemática para ver la diferencia de naturaleza: aquel paper sostiene que la pertenencia se puede demostrar con logs finitos usando cotas conformales. Tiene un alcance declarado (sistemas de trabajo de información, no IA encarnada). Puedes discrepar de él, atacar sus supuestos, intentar encontrar un contraejemplo. Te da superficie donde agarrarte. Eso es lo que hace que un paper forme parte de una conversación.
2. Una tesis falsable, aunque tú no pudieras probarla
No todo necesita un experimento de laboratorio el día en que se publica. Pero sí necesita estar formulado de manera que pudiera ponerse a prueba en principio, por alguien, en algún momento. «Los equipos que monitorizan trayectorias intermedias detectan desviaciones antes que los que solo monitorizan la salida final» es una afirmación que quizá hoy no tengas datos para cerrar, pero que cualquier equipo puede intentar refutar con su propia telemetría. Es discutible sobre un terreno compartido.
3. Como mínimo, una tesis que se pueda discutir fuera de la cabeza de quien la escribe
Este es el suelo, y es justo el que el paper de Zenodo no consigue superar. Una afirmación filosófica puede ser perfectamente legítima sin un solo experimento —la filosofía seria lo hace continuamente— siempre que ofrezca definiciones, distinciones y consecuencias que otro pueda coger y rebatir. El realismo estructural, el falibilismo, el problema de la inducción: son posiciones filosóficas viejas, debatidas durante décadas, precisamente porque están formuladas con la suficiente nitidez como para que alguien pueda decir «no, y aquí tienes por qué».
El paper que leí no hace eso. Reempaqueta el realismo estructural epistémico —una posición que existe desde los años ochenta— con vocabulario inventado («survivable cognition», «recoverable continuity», «operational invariants») y lo presenta como una arquitectura propietaria con «capas de capacidad». Se declara «operational, no metafísico» docenas de veces, y sin embargo no aporta ni una sola operación: ni una métrica, ni un procedimiento, ni un criterio. La palabra «operational» funciona como un talismán. Todo se define por nominalización abstracta y nada por una operación medible.
Es un experimento mental sellado en sí mismo. Y un experimento mental en el que nadie puede entrar desde fuera no es investigación; es un diario íntimo en tipografía académica.
Por qué esto es ya un problema de ingeniería
Hasta aquí podría parecer una pelea entre académicos. No lo es. Es nuestro problema, y se ha vuelto urgente por una razón muy concreta: los modelos de lenguaje son motores de coherencia.
Un LLM está optimizado para producir la continuación más plausible, más fluida, más coherente por dentro de un texto. No está optimizado para decir la verdad. Cuando funciona bien, las dos cosas más o menos coinciden. Pero la coherencia y la corrección son ejes independientes, y un modelo puede recorrer muchísimo en el eje de la coherencia con cero movimiento en el de la corrección. Puede generar cuarenta páginas impecables sobre un marco que no existe, con una bibliografía que se cita a sí misma, y cada frase encajará con la anterior.
El paper que leí tiene todas las huellas de haber nacido así, y la ironía es perfecta, porque describe ese mismísimo fenómeno y no se reconoce en él.
Aquí es donde vuelve su única buena idea, esta vez girada contra el propio paper. La defensa frente a la coherencia vacía no es desconfiar de la IA. Es el steward humano que carga con la consecuencia y es quien verifica. El modelo genera la prosa; alguien tiene que ser quien pregunte «espera, ¿esto se puede comprobar? ¿Contra qué? ¿Quién podría replicarlo? ¿Las referencias existen fuera de este documento?». Esa función no se puede externalizar al mismo sistema que genera el texto, por la misma razón por la que no dejas que el código escriba y apruebe sus propios tests.
Eso es, casi palabra por palabra, la tesis a la que vuelvo una y otra vez: la IA aumenta, no sustituye. El aumento es real y enorme. Pero la responsabilidad epistémica —el contacto con un oráculo externo— sigue siendo humana. El paper se propuso argumentar esto y en su lugar lo demuestra, siendo el ejemplo de lo que pasa cuando esa función falta.
Una checklist, para ingenieros
Para que esto sea accionable y no solo una queja elegante, aquí tienes las preguntas que me hago cuando leo —o escribo— cualquier cosa que pretenda ser una contribución seria. Son las mismas que harías en un code review:
- ¿Puedes enunciar la afirmación central de manera que pudiera ser falsa? Si no hay ningún estado del mundo que la contradiga, no es una tesis; es una definición disfrazada.
- ¿Hay alguna medición? Datos, un experimento, una observación reproducible. Y si no la hay, al menos una consecuencia que alguien pueda salir a buscar.
- ¿Podría alguien de fuera discutirlo en sus propios términos? ¿O solo se puede debatir tragándote antes todo el vocabulario del autor?
- ¿Las referencias forman un bucle cerrado? Si cada cita remite al autor o a su propio marco, la bibliografía es decoración, no cimiento.
- ¿Los términos están definidos como operaciones o como sustantivos abstractos? «Recoverability» sin una manera de medirla es una palabra, no un concepto.
- ¿La apariencia de autoridad está haciendo el trabajo de la verdad? Un DOI, un ORCID y secciones en cifras romanas no son revisión por pares. Pregúntate quién evaluó esto de verdad.
Si un texto suspende la mayoría de estas preguntas, puede ser brillante, puede ser bello, puede incluso ser correcto por casualidad, pero no te puedes apoyar en él. Y en producción, apoyarse en cosas es todo el trabajo.
Lo que me llevo
La coherencia es barata. Siempre lo fue, pero antes hacía falta talento u obsesión para producir cuarenta páginas coherentes sobre la nada. Ahora es gratis e instantánea. Lo que significa que la coherencia ha dejado de ser una señal de calidad, y toda la carga se desplaza hacia las propiedades que tendrían que haber importado desde el principio: comprobabilidad, falsabilidad, exposición a la contradicción desde fuera.
El paper que leí no es sólido, y no es técnico: por mucho vocabulario que tenga de geometría vectorial y representaciones semánticas distribuidas, no contiene ni una ecuación, ni un solo dato, ni un experimento. Pero me ha sido útil, porque es el caso de estudio perfecto de algo que todos vamos a tener que aprender a detectar: texto que suena a tesis y no lo es.
El trabajo de ingeniería —y el de cualquiera que quiera pensar bien con estas herramientas— no es dejar de usar la máquina que genera prosa fluida. Es mantener la disciplina de preguntar, cada vez, contra qué se comprueba esto. Porque un sistema que solo se valida contra sí mismo parece perfectamente sano hasta el día en que lo pones delante del mundo.
¿Construyendo sistemas de IA donde la diferencia entre coherencia y corrección se paga en producción, y preferirías un equipo con el instinto de comprobarlo contra la realidad? Habla con un CTO sobre desplegar capacidad de ingeniería nearshore con la disciplina de no confundir el verde del CI con la verdad.


