← Tornar a tots els articles
Reptes

La Coherència No És Correcció: Per Què un Paper Necessita Tesis Comprovables, No Prosa Impecable

Per Marc Molas·30 de maig del 2026·11 min de lectura

Fa uns dies vaig llegir un paper. El títol ja avisava: Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Quaranta pàgines penjades a Zenodo, amb DOI, ORCID i un aparell de referències que remeten a un programa de recerca propi anomenat Architecture of Limitation. Sona seriós. Llegint-lo, la prosa flueix, mai es contradiu, anticipa les seves pròpies objeccions i les desactiva amb elegància.

I tanmateix, en acabar-lo, no podia agafar-me a res. No perquè fos difícil —ho és, deliberadament— sinó perquè no afirmava res que jo pogués discutir, comprovar o refutar des de fora del propi text. Era impecable i buit alhora. I el més revelador és que el paper descriu el seu propi mode de fallada sense adonar-se'n.

Val la pena explicar per què, perquè el patró és cada cop més comú, i en l'era dels models de llenguatge distingir-lo s'ha convertit en una competència d'enginyeria de primer ordre.

El gra de veritat, primer

Sigui just abans de ser dur. El paper té una idea bona, i l'enterro reconeixent-la perquè la resta de l'argument no quedi com un home de palla.

La idea és aquesta: l'expressió «human in the loop» sovint funciona com un placeholder simbòlic. Posem un humà en una cadena de decisió i declarem que el sistema és segur, sense definir mai sota quines condicions aquesta participació humana és realment significativa, proporcionada i responsable. El paper proposa substituir-la per una noció de stewardship: el que aporta l'humà no és supervisió, sinó exposició a la conseqüència. El model genera; l'humà suporta. L'asimetria és estructural, no moral.

Hi estic d'acord. De fet connecta directament amb una cosa que defenso des de fa temps: la IA augmenta, no substitueix. La part de la cadena que no es pot externalitzar és precisament qui carrega les conseqüències de l'error i qui manté la relació adversarial amb la realitat quan el sistema deriva. Aquesta intuïció és sòlida.

El problema és tot el que l'envolta.

Punt clau: el paper és el seu propi mode de fallada

Aquí ve el que m'ha fet escriure aquest post.

El paper, citant treballs anteriors del mateix autor, encunya dos termes per descriure com fallen els sistemes de raonament sota pressió:

  • «Coherence inflation»: el moment en què l'estructura recuperable d'un argument comença a semblar explicació completa, i la coherència interna creixent es confon amb certesa metafísica.
  • «Hallucination as geometric overflow»: text que manté fluïdesa, consistència i organització explicativa mentre deriva més enllà de les fronteres que originàriament fonamentaven el raonament.

Llegeix aquestes dues definicions una altra vegada. Són una descripció exacta del paper que les conté.

Quaranta pàgines de prosa fluida, internament consistent, que mai no toca terra. Cada referència de la bibliografia és un altre document del mateix autor, penjat al mateix repositori, dins del mateix marc inventat. És un bucle de citació tancat: el text es valida amb el seu propi vocabulari. El paper anticipa aquesta acusació —literalment escriu que «els lectors poden interpretar aquest treball com a recursivament autovalidant»— i la descarta dient que no és la seva intenció. Però reconèixer un cercle viciós no el trenca. La bibliografia segueix mossegant-se la cua.

I el detall que ho corona: un DOI de Zenodo no és revisió per parells. Zenodo assigna un DOI a qualsevol cosa que hi pugis —un PDF, un dataset, un meme. És un servei d'arxiu, no un segell de qualitat. L'aparença d'autoritat acadèmica —ORCID, DOI, numeració de seccions en xifres romanes— és estètica, no substància.

El resultat és un artefacte que passa els seus propis tests perquè és ell qui els ha escrit, i que no en pot fallar cap perquè no n'afirma cap de comprovable.

L'analogia d'enginyeria

Si ets enginyer, ja tens el model mental per entendre exactament què passa aquí.

Imagina't un PR que compila net, passa el linter, i té el CI en verd. Tots els tests passen. Però quan obres els tests, descobreixes que els ha escrit el mateix codi que prova, i que cada assert és una tautologia: expect(x).toBe(x). El build és verd. La cobertura és del 100%. I el sistema no fa absolutament res.

Això és el paper. Coherència sintàctica perfecta, zero contacte amb un oracle extern.

En programació tenim un instint afinat per a això perquè ens ha mossegat moltes vegades. Sabem que un test que sempre passa no val res. Sabem que un sistema que només es valida contra si mateix —sense un entorn de staging, sense dades reals, sense un usuari que protesti— pot estar profundament trencat i semblar perfectament sa. La compilació neta no és correcció. El verd del CI no és veritat. És consistència interna, que és una propietat molt més barata i molt menys valuosa.

La filosofia i la ciència tenen el mateix instint, i té un nom: falsabilitat. Una afirmació que no es pot construir de manera que pugui ser falsa no és que sigui falsa —és que, en paraules de Pauli, «ni tan sols està equivocada». No entra al joc. No hi ha res a discutir perquè no hi ha res que el món pugui contradir.

Què fa sòlid un paper

Aquí vull ser constructiu, perquè la crítica fàcil seria quedar-se al «això és palla». La pregunta útil és: què hauria de tenir per ser sòlid?

Tres coses, en ordre de força decreixent.

1. Una tesi comprovable amb experiments, dades i resultats

L'estàndard d'or. Afirmes alguna cosa sobre el món, dissenyes una manera de mesurar-ho, recull dades, i els resultats o bé sostenen la tesi o la tomben. La clau és que algú altre, des de fora, pugui reproduir-ho i arribar a la seva pròpia conclusió. Les dades no són teves; són de qui les vulgui replicar.

Fa unes setmanes vaig escriure sobre un paper d'alineació d'IA que tracta el sistema desplegat com una distribució de probabilitat sobre trajectòries i defineix l'alineació com a pertinença topològica a un conjunt segur. No cal que segueixis la matemàtica per veure la diferència de naturalesa: aquell paper proposa que la pertinença es pot demostrar amb logs finits usant cotes conformals. Té abast declarat (sistemes de treball d'informació, no IA encarnada). Pots discrepar-ne, pots atacar-ne els supòsits, pots intentar trobar un contraexemple. Et dona superfície per agafar-te. Això és el que fa que un paper formi part d'una conversa.

2. Una tesi falsable, encara que no l'hagis pogut provar tu

No tot necessita un experiment de laboratori el dia que es publica. Però sí necessita estar formulada de manera que es pugui posar a prova en principi, per algú, algun dia. «Els equips que monitoren trajectòries intermèdies detecten desviacions abans que els que només monitoren la sortida final» és una afirmació que avui potser no tens dades per tancar, però que qualsevol equip pot intentar refutar amb la seva telemetria. És discutible en un terreny compartit.

3. Com a mínim, una tesi discutible fora del cap de qui l'escriu

Aquest és el llistó mínim, i és exactament el que el paper de Zenodo no supera. Una afirmació filosòfica pot ser perfectament legítima sense experiment —la filosofia seriosa ho fa contínuament— sempre que ofereixi definicions, distincions i conseqüències que un altre pugui agafar i contradir. El realisme estructural, el fal·libilisme, el problema de la inducció: són posicions filosòfiques velles, debatudes durant dècades, precisament perquè estan formulades de manera prou precisa perquè algú pugui dir «no, i aquí tens per què».

El paper que vaig llegir no fa això. Reempaqueta el realisme estructural epistèmic —una posició que existeix des dels anys vuitanta— amb vocabulari inventat («survivable cognition», «recoverable continuity», «operational invariants») i el presenta com una arquitectura propietària amb «capes de capacitat». Declara ser «operacional, no metafísic» desenes de vegades, però no dona ni una sola operació: ni una mètrica, ni un procediment, ni un criteri. La paraula «operational» funciona com un talismà. Defineix tot per substantivació abstracta i res per operació mesurable.

És un experiment mental tancat en si mateix. I un experiment mental que ningú pot trepitjar des de fora no és recerca; és diari íntim amb tipografia acadèmica.

Per què això és ara un problema d'enginyeria

Fins aquí podria semblar una disputa entre acadèmics. No ho és. És el nostre problema, i s'ha tornat urgent per una raó concreta: els models de llenguatge són motors de coherència.

Un LLM està optimitzat per produir la continuació més plausible, més fluida, més internament consistent d'un text. No està optimitzat per dir la veritat. Quan funciona bé, les dues coses coincideixen prou. Però la coherència i la correcció són eixos independents, i un model pot moure's molt lluny en l'eix de la coherència amb zero moviment en el de la correcció. Pot generar quaranta pàgines impecables sobre un marc que no existeix, amb una bibliografia que es cita a si mateixa, i cada frase encaixarà amb l'anterior.

El paper que vaig llegir té totes les marques d'haver nascut així —i la ironia és perfecta, perquè descriu aquest mateix fenomen i no es reconeix al mirall.

Aquí és on torna la seva única idea bona, capgirada cap a ell. La defensa contra la coherència buida no és desconfiar de la IA. És el steward humà que carrega la conseqüència i exerceix la verificació. El model genera la prosa; algú ha de ser qui pregunti «espera, això es pot comprovar? Contra què? Qui ho pot replicar? Les referències existeixen fora d'aquest document?». Aquesta funció no es pot externalitzar al mateix sistema que genera el text, per la mateixa raó que no deixes que el codi escrigui i aprovi els seus propis tests.

Això és, literalment, la meva tesi de sempre: la IA augmenta, no substitueix. L'augment és real i enorme. Però la responsabilitat epistèmica —el contacte amb un oracle extern— continua sent humana. El paper volia argumentar-ho i en comptes d'això ho demostra sent l'exemple del que passa quan aquesta funció falta.

Una checklist, per a enginyers

Perquè això sigui accionable i no només una queixa elegant, aquí tens les preguntes que faig servir quan llegeixo —o escric— alguna cosa que pretén ser una contribució seriosa. Són les mateixes que faries servir en un code review:

  • Pots enunciar l'afirmació central de manera que pugui ser falsa? Si no hi ha cap estat del món que la contradiria, no és una tesi; és una definició disfressada.
  • Hi ha alguna mesura? Dades, experiment, observació reproduïble. I si no n'hi ha, almenys una conseqüència que algú pugui anar a buscar.
  • Algú de fora podria discutir-ho en el seu propi terreny? O només es pot debatre acceptant primer tot el vocabulari de l'autor?
  • Les referències són un bucle tancat? Si cada cita remet a l'autor o al seu propi marc, la bibliografia és decoració, no fonament.
  • Els termes estan definits com a operacions o com a substantius abstractes? «Recoverability» sense una manera de mesurar-la és una paraula, no un concepte.
  • L'aparença d'autoritat fa feina de veritat? Un DOI, un ORCID i seccions en xifres romanes no són revisió per parells. Pregunta't qui ho ha avaluat realment.

Si un text falla la majoria d'aquestes preguntes, pot ser brillant, pot ser bell, pot ser fins i tot correcte per casualitat —però no t'hi pots recolzar. I en producció, recolzar-se en coses és tot el que importa.

El que m'enduc

La coherència és barata. Sempre ho ha estat, però abans calia talent o obsessió per produir quaranta pàgines internament consistents sobre el no-res. Ara és gratis i instantani. Això vol dir que la coherència ha deixat de ser un senyal de qualitat, i tot el pes recau sobre les propietats que sempre haurien d'haver importat: comprovabilitat, falsabilitat, exposició a la contradicció des de fora.

El paper que vaig llegir no és sòlid, i no és tècnic —tot i el seu vocabulari de geometria vectorial i representacions semàntiques distribuïdes, no conté ni una equació, ni una dada, ni un experiment. Però m'ha estat útil, perquè és el cas d'estudi perfecte d'una cosa que tots haurem de saber detectar: text que sona a tesi i no n'és cap.

La feina d'enginyeria —i de qualsevol que vulgui pensar bé amb aquestes eines— no és deixar de fer servir la màquina que genera prosa fluida. És mantenir la disciplina de preguntar, cada vegada, contra què es comprova això. Perquè un sistema que només es valida amb si mateix sembla perfectament sa fins el dia que el poses davant del món.


Construint sistemes d'IA on la diferència entre coherència i correcció es paga en producció, i preferiries un equip amb l'instint de comprovar-ho contra la realitat? Parla amb un CTO sobre desplegar capacitat d'enginyeria nearshore amb la disciplina de no confondre el verd del CI amb la veritat.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.