Reptes

La coherència no és correcció: per què un paper necessita tesis comprovables, no prosa impecable

Per Marc Molas·30 de maig del 2026·12 min de lectura

Algú va penjar el seu propi paper en un dels meus posts. Que la gent es promocioni no em treu el son, però aquell em va cridar l'atenció. El títol ja m'hauria d'haver avisat: Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Quaranta pàgines a Zenodo, amb DOI, ORCID i una bastida de referències que remeten totes al programa de recerca del mateix autor, l'Architecture of Limitation. Té tota la pinta de ser seriós. Llegint-lo, la prosa flueix, no es contradiu mai, anticipa les seves pròpies objeccions i les desactiva amb elegància.

I tanmateix, en acabar-lo, no podia agafar-me a res. No perquè fos difícil —ho és, deliberadament— sinó perquè les afirmacions que fa estan formulades de manera que res de fora del propi text no les podria mai contradir. Era fluid i infalsable alhora. I el més revelador és que el paper posa nom al seu propi mode de fallada i, tal com jo el llegeixo, hi cau de ple.

Val la pena explicar per què, perquè el patró és cada cop més comú, i en l'era dels models de llenguatge distingir-lo s'ha convertit en una competència d'enginyeria de primer ordre.

El gra de veritat, primer

Abans de ser dur, vull ser just. El paper té una idea bona, i la poso al davant perquè la resta no quedi com un atac a un home de palla.

La idea és aquesta: l'expressió «human in the loop» sovint funciona com un placeholder simbòlic. Posem un humà en una cadena de decisió i declarem que el sistema és segur, sense definir mai sota quines condicions aquesta participació humana és realment significativa, proporcionada i responsable. El paper proposa substituir-la per una noció de stewardship: el que aporta l'humà no és supervisió, sinó exposició a la conseqüència. El model genera; l'humà suporta. L'asimetria és estructural, no moral.

Hi estic d'acord. De fet connecta directament amb una cosa que defenso des de fa temps: la IA augmenta, no substitueix. La part de la cadena que no es pot externalitzar és precisament qui carrega les conseqüències de l'error i qui manté la relació adversarial amb la realitat quan el sistema deriva. Aquesta intuïció és sòlida.

El problema és tot el que l'envolta.

El punt clau: el paper és el seu propi mode de fallada

Aquí ve el que m'ha fet escriure aquest post.

El paper, citant treballs anteriors del mateix autor, encunya dos termes per descriure com fallen els sistemes de raonament sota pressió:

«Coherence inflation»: el moment en què l'estructura recuperable d'un argument comença a semblar explicació completa, i la coherència interna creixent es confon amb certesa metafísica.
«Hallucination as geometric overflow»: text que manté fluïdesa, consistència i organització explicativa mentre deriva més enllà de les fronteres que originàriament fonamentaven el raonament.

Torna a llegir aquestes dues definicions. La segona, sobretot, sembla gairebé una descripció del paper que les conté.

Quaranta pàgines de prosa fluida, internament consistent, que mai no toca terra. Cada referència de la bibliografia és un altre document del mateix autor, penjat al mateix repositori, dins del mateix marc inventat. És un bucle de citació tancat: el text es valida amb el seu propi vocabulari. El paper fins i tot anticipa aquesta acusació —literalment escriu que «els lectors poden interpretar aquest treball com a recursivament autovalidant»— i la descarta dient que no és la seva intenció. Però reconèixer un cercle viciós no el trenca. La bibliografia continua mossegant-se la cua.

I una última cosa —sobre com això arriba a un lector, no sobre el que afirma el seu autor. És obertament un preprint: autoarxivat a Zenodo, explícitament «provided for academic and research purposes», sense cap pretensió de revisió per parells enlloc. I això és del tot legítim —els preprints són la manera com apareix per primera vegada molta feina seriosa. El parany és a la banda de la lectura. Un DOI, un ORCID i seccions numerades en xifres romanes poden semblar validació a qui fa una ullada ràpida, i no ho són: Zenodo assigna un DOI a qualsevol cosa que hi pugis —un PDF, un dataset, un meme—, és un servei d'arxiu, no un segell de qualitat. L'autor mai no ha pretès el contrari. La qüestió és que l'aparença d'autoritat acadèmica ens fa la feina que només hauria de fer l'escrutini.

El resultat és un artefacte que es valida amb el seu propi vocabulari i no et dona cap punt de suport des de fora —perquè les afirmacions que fa mai no estan formulades de manera que el món les pugui contradir.

L'analogia d'enginyeria: el CI en verd no és veritat

Si ets enginyer, ja tens el model mental per entendre exactament què passa aquí.

Imagina't un PR que compila net, passa el linter, i té el CI en verd. Tots els tests passen. Però quan obres els tests, descobreixes que els ha escrit el mateix codi que prova, i que cada assert és una tautologia: expect(x).toBe(x). El build és verd. La cobertura és del 100%. I el sistema no fa absolutament res.

Això és el paper. Coherència sintàctica perfecta, zero contacte amb un oracle extern.

En programació tenim un instint afinat per a això perquè ens ha mossegat moltes vegades. Sabem que un test que sempre passa no val res. Sabem que un sistema que només es valida contra si mateix —sense un entorn de staging, sense dades reals, sense un usuari que protesti— pot estar profundament trencat i semblar perfectament sa. La compilació neta no és correcció. El verd del CI no és veritat. És consistència interna, que és una propietat molt més barata i molt menys valuosa.

La filosofia i la ciència tenen el mateix instint, i té un nom: falsabilitat. Una afirmació que no es pot construir de manera que pugui ser falsa no és que sigui falsa —és que, en paraules de Pauli, «ni tan sols està equivocada». No entra al joc. No hi ha res a discutir perquè no hi ha res que el món pugui contradir.

Vull ser just i precís aquí, perquè aquesta és justament la mena d'afirmació que hauria de ser comprovable ella mateixa. El paper no calla. Conté una hipòtesi provisional etiquetada explícitament (secció XIV) i una tesi conclusiva deliberadament estreta (secció XV), i té cura, una vegada i una altra, de no inflar-ne cap fins a la certesa —«No final metaphysical closure is claimed». Per tant, l'objecció honesta no és que no afirmi res. És que les afirmacions que sí que fa —«deterministic structure may remain operationally admissible … through the persistence of invariant structures recoverable across constrained observational frames»— estan formulades de manera que res del que poguessis observar no comptaria ni a favor ni en contra. Això és el que vol dir de debò «ni tan sols està equivocada»: no que falti, sinó que és infalsable.

Què fa sòlid un paper

Aquí vull ser constructiu, perquè la crítica fàcil seria quedar-se al «això és palla». La pregunta útil és: què hauria de tenir per ser sòlid?

Tres coses, en ordre de força decreixent.

1. Una tesi comprovable amb experiments, dades i resultats

El patró or. Afirmes alguna cosa sobre el món, dissenyes una manera de mesurar-ho, reculls dades, i els resultats o bé sostenen la tesi o la tomben. La clau és que algú altre, des de fora, pugui reproduir-ho i arribar a la seva pròpia conclusió. Les dades no són teves; són de qui les vulgui replicar.

Fa unes setmanes vaig escriure sobre un paper d'alineació d'IA que tracta el sistema desplegat com una distribució de probabilitat sobre trajectòries i defineix l'alineació com a pertinença topològica a un conjunt segur. No cal que segueixis les matemàtiques per veure la diferència de naturalesa: aquell paper proposa que la pertinença es pot demostrar amb logs finits usant cotes conformals. Té un abast declarat (sistemes de treball d'informació, no IA encarnada). Pots discrepar-ne, pots atacar-ne els supòsits, pots intentar trobar-hi un contraexemple. Et dona superfície on agafar-te. Això és el que fa que un paper formi part d'una conversa.

2. Una tesi falsable, encara que no l'hagis pogut provar tu

No tot necessita un experiment de laboratori el dia que es publica. Però sí que ha d'estar formulada de manera que es pugui posar a prova en principi, per algú, algun dia. «Els equips que monitoren trajectòries intermèdies detecten desviacions abans que els que només monitoren la sortida final» és una afirmació que avui potser no tens dades per tancar, però que qualsevol equip pot intentar refutar amb la seva telemetria. És discutible en un terreny compartit.

3. Com a mínim, una tesi discutible fora del cap de qui l'escriu

Aquest és el llistó mínim, i és exactament el que el paper de Zenodo no supera. Una afirmació filosòfica pot ser perfectament legítima sense experiment —la filosofia seriosa ho fa contínuament— sempre que ofereixi definicions, distincions i conseqüències que algú altre pugui agafar i rebatre. El realisme estructural, el fal·libilisme, el problema de la inducció: són posicions filosòfiques velles, debatudes durant dècades, precisament perquè estan formulades de manera prou precisa perquè algú pugui dir «no, i aquí tens per què».

El paper que vaig llegir no fa això. Reempaqueta el realisme estructural epistèmic —una posició que existeix des dels anys vuitanta— amb vocabulari inventat («survivable cognition», «recoverable continuity», «operational invariants») i el presenta com una arquitectura propietària amb «capes de capacitat». Es declara «operacional, no metafísic» desenes de vegades, però no dona ni una sola operació: ni una mètrica, ni un procediment, ni un criteri. La paraula «operational» funciona com un talismà. Ho defineix tot amb substantivacions abstractes i res amb una operació mesurable.

És un experiment mental tancat en si mateix. I un experiment mental en què ningú no pot entrar des de fora no és recerca; és un dietari personal amb tipografia acadèmica.

Per què això és ara un problema d'enginyeria

Fins aquí podria semblar una disputa entre acadèmics. No ho és. És el nostre problema, i s'ha tornat urgent per una raó concreta: els models de llenguatge són motors de coherència.

Un LLM està optimitzat per produir la continuació més plausible, més fluida, més internament consistent d'un text. No està optimitzat per dir la veritat. Quan funciona bé, les dues coses coincideixen prou. Però la coherència i la correcció són eixos independents, i un model pot moure's molt lluny en l'eix de la coherència amb zero moviment en el de la correcció. Pot generar quaranta pàgines impecables sobre un marc que només existeix dins del seu propi text, amb una bibliografia que es cita a si mateixa, i cada frase encaixarà amb l'anterior.

No diré que sé com es va escriure aquest paper en concret —no ho puc saber, i per a l'argument tant és. El que importa és la propietat, no la procedència: avui és possible —per a una persona, per a un model, o per als dos treballant junts— produir quaranta pàgines fluides i internament consistents que no toquen ni una sola vegada cap comprovació externa. Aquest paper n'és un exemple net. I la ironia és punyent, perquè posa nom a aquest mateix mode de fallada i després, tal com jo el llegeixo, l'exhibeix.

Aquí és on torna la seva única idea bona, girada contra el mateix paper. La defensa contra la coherència buida no és desconfiar de la IA. És el steward humà que carrega la conseqüència i és qui verifica. El model genera la prosa; algú ha de ser qui pregunti «espera, això es pot comprovar? Contra què? Qui ho pot replicar? Les referències existeixen fora d'aquest document?». Aquesta funció no es pot externalitzar al mateix sistema que genera el text, per la mateixa raó que no deixes que el codi escrigui i aprovi els seus propis tests.

Això és, gairebé al peu de la lletra, la meva tesi de sempre: la IA augmenta, no substitueix. L'augment és real i enorme. Però la responsabilitat epistèmica —el contacte amb un oracle extern— continua sent humana. El paper es proposa argumentar exactament això i, tal com jo ho veig, acaba il·lustrant-ho: l'aspecte que té un text quan ningú no l'obliga a respondre la pregunta contra què es comprova, això?.

Una checklist, per a enginyers

Perquè tot això serveixi per a alguna cosa i no es quedi en una queixa elegant, aquí tens les preguntes que faig servir quan llegeixo —o escric— alguna cosa que pretén ser una contribució seriosa. Són les mateixes que faries servir en un code review:

Pots enunciar l'afirmació central de manera que pugui ser falsa? Si no hi ha cap estat del món que la contradiria, no és una tesi; és una definició disfressada.
Hi ha alguna mesura? Dades, experiment, observació reproduïble. I si no n'hi ha, almenys una conseqüència que algú pugui anar a buscar.
Algú de fora podria discutir-ho en el seu propi terreny? O només es pot debatre acceptant primer tot el vocabulari de l'autor?
Les referències són un bucle tancat? Si cada cita remet a l'autor o al seu propi marc, la bibliografia és decoració, no fonament.
Els termes estan definits com a operacions o com a substantius abstractes? «Recoverability» sense una manera de mesurar-la és una paraula, no un concepte.
L'aparença d'autoritat està fent la feina que hauria de fer la veritat? Un DOI, un ORCID i seccions en xifres romanes no són revisió per parells. Pregunta't qui ho ha avaluat realment.

Si un text suspèn la majoria d'aquestes preguntes, pot ser brillant, pot ser bell, pot ser fins i tot correcte per casualitat —però no t'hi pots recolzar. I en producció, la feina consisteix precisament a recolzar-se en coses.

El que m'enduc

La coherència és barata. Sempre ho ha estat, però abans calia talent o obsessió per produir quaranta pàgines internament consistents sobre el no-res. Ara és gratis i instantani. Això vol dir que la coherència ha deixat de ser un senyal de qualitat, i tot el pes recau sobre les propietats que sempre haurien d'haver importat: comprovabilitat, falsabilitat, exposició a la contradicció des de fora.

El paper que vaig llegir no és sòlid, i no és tècnic —tot i el seu vocabulari de geometria vectorial i representacions semàntiques distribuïdes, no conté ni una equació, ni una dada, ni un experiment. Però m'ha estat útil, perquè és el cas d'estudi perfecte d'una cosa que tots haurem de saber detectar: text que sona a tesi i no n'és cap.

La feina d'enginyeria —i de qualsevol que vulgui pensar bé amb aquestes eines— no és deixar de fer servir la màquina que genera prosa fluida. És mantenir la disciplina de preguntar, cada vegada, contra què es comprova això. Perquè un sistema que només es valida amb si mateix sembla perfectament sa fins al dia que el poses davant del món.

Construeixes sistemes d'IA on la distància entre coherència i correcció es paga en producció, i preferiries un equip amb l'instint de contrastar-ho amb la realitat? Parla amb un CTO sobre com desplegar capacitat d'enginyeria nearshore amb la disciplina de no confondre el verd del CI amb la veritat.

Nota de l'editor (juny de 2026). Unes paraules sobre què és això, i després sobre què hi he canviat.

M'esforço a ser exacte i just, i les crítiques són benvingudes de debò —fins i tot una mica de conya—, sempre que siguin la mena de competència intel·lectual sana que fa els arguments més sòlids i acosta les conclusions a afirmacions comprovables. També crec que el registre àgil, de vegades joganer i lleugerament hiperbòlic d'un blog té el seu lloc. Això és un blog —no un paper, ni una publicació revisada per parells, i no pretén ser-ho en cap sentit científic. Al capdavall són notes des de la sala de màquines: idees ràpides, escrites a tota velocitat. Però si una cosa tan lleugera com cinc minuts de lectura de notes ofèn un investigador honest, o el desanima de la seva feina, res no és més lluny de la meva intenció —i de bon grat poliré la prosa i afinaré els arguments.

Per això, després que aquest text sortís i que el seu autor, Franky Schaut, es posés en contacte amb mi, l'he revisat en tres punts. Primer, he eliminat qualsevol especulació sobre com es va produir el paper —no ho puc saber, i l'argument no ho necessita; el que importa és la propietat, no la procedència. Segon, he precisat l'objecció central: el paper sí que enuncia una hipòtesi explícitament provisional (secció XIV) i una tesi conclusiva estreta (secció XV), i té cura de no reclamar mai cap certesa —de manera que la crítica és que aquestes afirmacions no estan formulades per ser falsables, no que el paper no en faci cap. Tercer, he aclarit que el paper és obertament un preprint i que mai no ha reclamat revisió per parells; el comentari sobre els DOI i l'aparença acadèmica és sobre com es llegeix l'autoritat per a qui fa una ullada ràpida, no sobre res que el seu autor hagi tergiversat. L'autor ha publicat les seves pròpies respostes a la crítica original, i val la pena llegir-les juntament amb aquest text.

L'argument de fons es manté: en l'era dels motors de coherència, la fluïdesa no és evidència, i la comprovabilitat és la propietat que aguanta el pes.

Referències

Schaut, F. (2026). Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Zenodo.

La coherència no és correcció: per què un paper necessita tesis comprovables, no prosa impecable

El gra de veritat, primer

El punt clau: el paper és el seu propi mode de fallada

L'analogia d'enginyeria: el CI en verd no és veritat

Què fa sòlid un paper

1. Una tesi comprovable amb experiments, dades i resultats

2. Una tesi falsable, encara que no l'hagis pogut provar tu

3. Com a mínim, una tesi discutible fora del cap de qui l'escriu

Per què això és ara un problema d'enginyeria

Una checklist, per a enginyers

El que m'enduc

Articles Relacionats

L'estadística era certa. El titular, no.

Agentic-as-a-Service i el retorn de l'enginyer

(3/3) Més enllà de l'escalat: els nous espais d'optimització de la IA

Preparat per construir el teu equip d'enginyeria?