Retos

Coherencia no es corrección: un paper necesita tesis comprobables, no prosa impecable

Por Marc Molas·30 de mayo de 2026·12 min de lectura

Alguien dejó su propio paper en uno de mis posts. No me molesta especialmente que la gente se promocione, pero me llamó la atención. El título por sí solo ya tendría que haberme puesto en guardia: Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Cuarenta páginas colgadas en Zenodo, con DOI, con ORCID, y con un andamiaje de referencias que remiten todas al propio programa de investigación del autor, la Architecture of Limitation. Tiene pinta de cosa seria. Y al leerlo, la prosa fluye, nunca se contradice, anticipa sus propias objeciones y las desactiva con elegancia.

Y sin embargo, al terminarlo, no había nada a lo que agarrarme. No porque fuera difícil —lo es, deliberadamente—, sino porque las afirmaciones que hace están formuladas de modo que nada de fuera de su propio texto podría jamás contradecirlas. Era fluido e infalsable a la vez. Y lo más revelador es que el paper le pone nombre a su propio modo de fallo y, tal como yo lo leo, cae de lleno en él.

Vale la pena explicar por qué, porque el patrón es cada vez más común, y en la era de los modelos de lenguaje detectarlo se ha convertido, casi sin que nos diéramos cuenta, en una competencia de ingeniería de primer orden.

El grano de verdad, primero

Déjame ser justo antes de ser duro. El paper tiene una buena idea, y la pongo por delante para que el resto no suene a hombre de paja.

La idea es esta: la expresión «human in the loop» funciona muchas veces como un placeholder simbólico. Metemos a un humano en una cadena de decisión y declaramos el sistema seguro, sin definir nunca bajo qué condiciones esa participación humana es realmente significativa, proporcionada o responsable. El paper propone sustituirla por una noción de stewardship: lo que aporta el humano no es supervisión, es exposición a la consecuencia. El modelo genera; el humano carga con ello. La asimetría es estructural, no moral.

Estoy de acuerdo. Y conecta directamente con algo que defiendo desde hace tiempo: la IA aumenta, no sustituye. La parte de la cadena que no puedes externalizar es precisamente quien carga con el coste del error y quien mantiene una relación adversarial con la realidad cuando el sistema se desvía. Esa intuición es sólida.

El problema es todo lo que la rodea.

El punto central: el paper es su propio modo de fallo

Aquí viene lo que de verdad me empujó a escribir este post.

El paper, citando trabajos anteriores del mismo autor, acuña dos términos para describir cómo fallan los sistemas de razonamiento bajo presión:

«Coherence inflation»: el momento en que la estructura recuperable de un argumento empieza a parecer explicación completa, y la coherencia interna creciente se confunde con certeza metafísica.
«Hallucination as geometric overflow»: texto que conserva fluidez, consistencia y organización explicativa mientras se aleja de las fronteras que originalmente fundamentaban el razonamiento.

Vuelve a leer esas dos definiciones. La segunda, sobre todo, se lee casi como una descripción del paper que las contiene.

Cuarenta páginas de prosa fluida y coherente por dentro que jamás pisan tierra. Cada referencia de la bibliografía es otro documento del mismo autor, subido al mismo repositorio, dentro del mismo marco inventado. Es un bucle de citación cerrado: el texto se valida a sí mismo con su propio vocabulario. El paper incluso anticipa esta acusación —escribe literalmente que «los lectores pueden interpretar este trabajo como recursivamente autovalidante»— y la despacha diciendo que no es su intención. Pero reconocer un círculo vicioso no lo rompe. La bibliografía sigue mordiéndose la cola.

Y una última cosa —sobre cómo esto le llega a un lector, no sobre lo que afirma su autor. Es abiertamente un preprint: autoarchivado en Zenodo, explícitamente «provided for academic and research purposes», sin pretensión de revisión por pares en ninguna parte. Y eso es del todo legítimo: los preprints son la forma en que aparece por primera vez mucho trabajo serio. La trampa está en el lado de la lectura. Un DOI, un ORCID y secciones numeradas en cifras romanas pueden parecer validación a quien echa un vistazo rápido, y no lo son: Zenodo asigna un DOI a cualquier cosa que subas —un PDF, un dataset, un meme—, es un servicio de archivo, no un sello de calidad. El autor nunca fingió lo contrario. El punto es que la apariencia de autoridad académica nos hace el trabajo que solo debería hacer el escrutinio.

Lo que te queda es un artefacto que se valida con su propio vocabulario y no te da ningún punto de apoyo desde fuera, porque las afirmaciones que hace nunca están formuladas de modo que el mundo pueda contradecirlas.

La analogía de ingeniería: el verde del CI no es la verdad

Si eres ingeniero, ya tienes el modelo mental para entender exactamente lo que pasa aquí.

Imagina una PR que compila limpia, pasa el linter y tiene el CI en verde. Todos los tests pasan. Entonces abres los tests y descubres que los escribió el propio código que prueban, y que cada aserción es una tautología: expect(x).toBe(x). El build está verde. La cobertura es del 100%. Y el sistema no hace absolutamente nada.

Eso es el paper. Coherencia sintáctica perfecta, cero contacto con un oráculo externo.

En software tenemos un instinto muy afinado para esto porque nos ha mordido un montón de veces. Sabemos que un test que siempre pasa no vale nada. Sabemos que un sistema que solo se valida contra sí mismo —sin entorno de staging, sin datos reales, sin un usuario que se queje— puede estar profundamente roto y parecer perfectamente sano. Una compilación limpia no es corrección. El verde del CI no es verdad. Es consistencia interna, que es una propiedad mucho más barata y mucho menos valiosa.

La filosofía y la ciencia tienen el mismo instinto, y tiene nombre: falsabilidad. Una afirmación que no puede formularse de manera que pudiera resultar falsa no es que sea falsa; es que, en palabras de Pauli, «not even wrong». Ni siquiera entra en el juego. No hay nada que discutir, porque no hay nada que el mundo pueda contradecir.

Quiero ser justo y preciso aquí, porque esta es exactamente la clase de afirmación que debería poder comprobarse a su vez. El paper no guarda silencio. Lleva una hipótesis provisional etiquetada explícitamente (sección XIV) y una tesis conclusiva deliberadamente estrecha (sección XV), y tiene cuidado, una y otra vez, de no inflar ninguna hasta la certeza: «No final metaphysical closure is claimed». Así que la objeción honesta no es que no afirme nada. Es que las afirmaciones que sí hace —«deterministic structure may remain operationally admissible … through the persistence of invariant structures recoverable across constrained observational frames»— están formuladas de modo que nada que pudieras observar contaría ni a favor ni en contra. Eso es lo que significa de verdad «not even wrong»: no que falte, sino que es infalsable.

Qué hace sólido a un paper

Aquí quiero ser constructivo, porque lo fácil sería quedarse en el «esto es paja». La pregunta útil es: ¿qué necesitaría para ser sólido?

Tres cosas, en orden de fuerza decreciente.

1. Una tesis comprobable, con experimentos, datos y resultados

El estándar de oro. Afirmas algo sobre el mundo, diseñas una manera de medirlo, recoges datos, y los resultados o bien sostienen la tesis o la tumban. La clave es que otra persona, desde fuera, pueda reproducirlo y llegar a su propia conclusión. Los datos no son tuyos; son de quien quiera replicarlos.

Hace unas semanas escribí sobre un paper de alineación de IA que trata el sistema desplegado como una distribución de probabilidad sobre trayectorias y define la alineación como pertenencia topológica a un conjunto seguro. No hace falta que sigas la matemática para ver la diferencia de naturaleza: aquel paper sostiene que la pertenencia se puede demostrar con logs finitos usando cotas conformales. Tiene un alcance declarado (sistemas de trabajo de información, no IA encarnada). Puedes discrepar de él, atacar sus supuestos, intentar encontrar un contraejemplo. Te da superficie donde agarrarte. Eso es lo que hace que un paper forme parte de una conversación.

2. Una tesis falsable, aunque tú no pudieras probarla

No todo necesita un experimento de laboratorio el día en que se publica. Pero sí necesita estar formulado de manera que pudiera ponerse a prueba en principio, por alguien, en algún momento. «Los equipos que monitorizan trayectorias intermedias detectan desviaciones antes que los que solo monitorizan la salida final» es una afirmación que quizá hoy no tengas datos para cerrar, pero que cualquier equipo puede intentar refutar con su propia telemetría. Es discutible sobre un terreno compartido.

3. Como mínimo, una tesis que se pueda discutir fuera de la cabeza de quien la escribe

Este es el suelo, y es justo el que el paper de Zenodo no consigue superar. Una afirmación filosófica puede ser perfectamente legítima sin un solo experimento —la filosofía seria lo hace continuamente— siempre que ofrezca definiciones, distinciones y consecuencias que otro pueda coger y rebatir. El realismo estructural, el falibilismo, el problema de la inducción: son posiciones filosóficas viejas, debatidas durante décadas, precisamente porque están formuladas con la suficiente nitidez como para que alguien pueda decir «no, y aquí tienes por qué».

El paper que leí no hace eso. Reempaqueta el realismo estructural epistémico —una posición que existe desde los años ochenta— con vocabulario inventado («survivable cognition», «recoverable continuity», «operational invariants») y lo presenta como una arquitectura propietaria con «capas de capacidad». Se declara «operacional, no metafísico» docenas de veces, y sin embargo no aporta ni una sola operación: ni una métrica, ni un procedimiento, ni un criterio. La palabra «operational» funciona como un talismán. Todo se define por nominalización abstracta y nada por una operación medible.

Es un experimento mental sellado en sí mismo. Y un experimento mental en el que nadie puede entrar desde fuera no es investigación; es un diario íntimo en tipografía académica.

Por qué esto es ya un problema de ingeniería

Hasta aquí podría parecer una pelea entre académicos. No lo es. Es nuestro problema, y se ha vuelto urgente por una razón muy concreta: los modelos de lenguaje son motores de coherencia.

Un LLM está optimizado para producir la continuación más plausible, más fluida, más coherente por dentro de un texto. No está optimizado para decir la verdad. Cuando funciona bien, las dos cosas más o menos coinciden. Pero la coherencia y la corrección son ejes independientes, y un modelo puede recorrer muchísimo en el eje de la coherencia con cero movimiento en el de la corrección. Puede generar cuarenta páginas impecables sobre un marco que solo existe dentro de su propio texto, con una bibliografía que se cita a sí misma, y cada frase encajará con la anterior.

No voy a afirmar que sé cómo se escribió este paper en concreto —no puedo, y para el argumento da igual. Lo que importa es la propiedad, no la procedencia: hoy es posible —para una persona, para un modelo, o para los dos trabajando juntos— producir cuarenta páginas fluidas y coherentes por dentro que no entran ni una sola vez en contacto con una comprobación externa. Este paper es un ejemplo limpio de esa propiedad. Y la ironía es punzante, porque le pone nombre a ese mismo modo de fallo y luego, tal como yo lo leo, lo exhibe.

Aquí es donde vuelve su única buena idea, esta vez girada contra el propio paper. La defensa frente a la coherencia vacía no es desconfiar de la IA. Es el steward humano que carga con la consecuencia y es quien verifica. El modelo genera la prosa; alguien tiene que ser quien pregunte «espera, ¿esto se puede comprobar? ¿Contra qué? ¿Quién podría replicarlo? ¿Las referencias existen fuera de este documento?». Esa función no se puede externalizar al mismo sistema que genera el texto, por la misma razón por la que no dejas que el código escriba y apruebe sus propios tests.

Eso es, casi palabra por palabra, la tesis a la que vuelvo una y otra vez: la IA aumenta, no sustituye. El aumento es real y enorme. Pero la responsabilidad epistémica —el contacto con un oráculo externo— sigue siendo humana. El paper se propone argumentar exactamente esto y, tal como yo lo veo, termina ilustrándolo: el aspecto que tiene un texto cuando nadie lo obliga a responder la pregunta ¿contra qué se comprueba esto?.

Una checklist, para ingenieros

Para que esto sirva para algo y no se quede en una queja elegante, aquí tienes las preguntas que me hago cuando leo —o escribo— cualquier cosa que pretenda ser una contribución seria. Son las mismas que harías en un code review:

¿Puedes enunciar la afirmación central de manera que pudiera ser falsa? Si no hay ningún estado del mundo que la contradiga, no es una tesis; es una definición disfrazada.
¿Hay alguna medición? Datos, un experimento, una observación reproducible. Y si no la hay, al menos una consecuencia que alguien pueda salir a buscar.
¿Podría alguien de fuera discutirlo en sus propios términos? ¿O solo se puede debatir tragándote antes todo el vocabulario del autor?
¿Las referencias forman un bucle cerrado? Si cada cita remite al autor o a su propio marco, la bibliografía es decoración, no cimiento.
¿Los términos están definidos como operaciones o como sustantivos abstractos? «Recoverability» sin una manera de medirla es una palabra, no un concepto.
¿La apariencia de autoridad está haciendo el trabajo de la verdad? Un DOI, un ORCID y secciones en cifras romanas no son revisión por pares. Pregúntate quién evaluó esto de verdad.

Si un texto suspende la mayoría de estas preguntas, puede ser brillante, puede ser bello, puede incluso ser correcto por casualidad, pero no te puedes apoyar en él. Y en producción, el trabajo consiste precisamente en apoyarse en las cosas.

Lo que me llevo

La coherencia es barata. Siempre lo fue, pero antes hacía falta talento u obsesión para producir cuarenta páginas coherentes sobre la nada. Ahora es gratis e instantánea. Lo que significa que la coherencia ha dejado de ser una señal de calidad, y toda la carga se desplaza hacia las propiedades que tendrían que haber importado desde el principio: comprobabilidad, falsabilidad, exposición a la contradicción desde fuera.

El paper que leí no es sólido, y no es técnico: por mucho vocabulario que tenga de geometría vectorial y representaciones semánticas distribuidas, no contiene ni una ecuación, ni un solo dato, ni un experimento. Pero me ha sido útil, porque es el caso de estudio perfecto de algo que todos vamos a tener que aprender a detectar: texto que suena a tesis y no lo es.

El trabajo de ingeniería —y el de cualquiera que quiera pensar bien con estas herramientas— no es dejar de usar la máquina que genera prosa fluida. Es mantener la disciplina de preguntar, cada vez, contra qué se comprueba esto. Porque un sistema que solo se valida contra sí mismo parece perfectamente sano hasta el día en que lo pones delante del mundo.

¿Construyendo sistemas de IA donde la diferencia entre coherencia y corrección se paga en producción, y preferirías un equipo con el instinto de comprobarlo contra la realidad? Habla con un CTO sobre desplegar capacidad de ingeniería nearshore con la disciplina de no confundir el verde del CI con la verdad.

Nota del editor (junio de 2026). Unas palabras sobre qué es esto, y luego sobre qué he cambiado.

Me precio de ser exacto y justo, y la crítica —y que me piquen un poco, también— es bienvenida, siempre que sea de esa clase de competición intelectual sana que vuelve los argumentos más sólidos y acerca las conclusiones a afirmaciones comprobables. También creo que el registro ágil, a veces juguetón y ligeramente hiperbólico de un blog tiene su lugar. Esto es un blog —no un paper, ni una publicación revisada por pares, y no pretende serlo en ningún sentido científico. Al fin y al cabo son notas desde la sala de máquinas: ideas rápidas, escritas a toda velocidad. Pero si algo tan ligero como cinco minutos de lectura de notas ofende a un investigador honesto, o lo desanima en su trabajo, nada más lejos de mi intención —y con gusto pulo la prosa y afilo los argumentos.

Por eso, después de que este texto saliera y de que su autor, Franky Schaut, se pusiera en contacto conmigo, lo he revisado en tres puntos. Primero, he eliminado cualquier especulación sobre cómo se produjo el paper —no puedo saberlo, y el argumento no lo necesita; lo que importa es la propiedad, no la procedencia. Segundo, he precisado la objeción central: el paper sí enuncia una hipótesis explícitamente provisional (sección XIV) y una tesis conclusiva estrecha (sección XV), y tiene cuidado de no reclamar nunca certeza alguna —de modo que la crítica es que esas afirmaciones no están formuladas para ser falsables, no que el paper no haga ninguna. Tercero, he aclarado que el paper es abiertamente un preprint y que nunca reclamó revisión por pares; el comentario sobre los DOI y la apariencia académica trata de cómo se lee la autoridad para quien echa un vistazo rápido, no de nada que su autor haya tergiversado. El autor ha publicado sus propias respuestas a la crítica original, y vale la pena leerlas junto a esto.

El argumento de fondo se mantiene: en la era de los motores de coherencia, la fluidez no es evidencia, y la comprobabilidad es la propiedad que aguanta el peso.

Referencias

Schaut, F. (2026). Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Zenodo.

Coherencia no es corrección: un paper necesita tesis comprobables, no prosa impecable

El grano de verdad, primero

El punto central: el paper es su propio modo de fallo

La analogía de ingeniería: el verde del CI no es la verdad

Qué hace sólido a un paper

1. Una tesis comprobable, con experimentos, datos y resultados

2. Una tesis falsable, aunque tú no pudieras probarla

3. Como mínimo, una tesis que se pueda discutir fuera de la cabeza de quien la escribe

Por qué esto es ya un problema de ingeniería

Una checklist, para ingenieros

Lo que me llevo

Artículos Relacionados

La estadística era cierta. El titular, no.

Agentic-as-a-Service y el retorno del ingeniero

(3/3) Más allá del escalado: los nuevos espacios de optimización para el progreso de la IA

¿Listo para construir tu equipo de ingeniería?