La Cohérence N'Est Pas la Correction : Pourquoi un Article a Besoin de Thèses Vérifiables, Pas d'une Prose Impeccable
Il y a quelques jours, j'ai lu un article. Le titre, à lui seul, aurait dû me mettre la puce à l'oreille : Conditional Realism, Stewardship, and Survivable Cognition Under Finite Constraint. Quarante pages déposées sur Zenodo, avec un DOI, un ORCID et tout un appareil de références qui renvoient à un programme de recherche maison, l'Architecture of Limitation. Ça a l'air sérieux. À la lecture, la prose coule, elle ne se contredit jamais, elle anticipe ses propres objections et les désamorce avec élégance.
Et pourtant, une fois la dernière page tournée, je n'avais rien à quoi me raccrocher. Non pas parce que c'était difficile — ça l'est, délibérément — mais parce que l'article n'avançait jamais une affirmation que je puisse tester, vérifier ou réfuter depuis l'extérieur de son propre texte. Impeccable et vide à la fois. Et le plus révélateur, c'est que l'article décrit son propre mode de défaillance sans jamais se reconnaître dans le miroir.
Ça vaut la peine d'expliquer pourquoi, parce que le schéma se répand, et qu'à l'ère des modèles de langage, savoir le repérer est devenu, en douce, une compétence d'ingénierie de premier ordre.
Le grain de vérité, d'abord
Soyons juste avant d'être dur. L'article a une bonne idée, et je commence par elle pour que le reste ne ressemble pas à un procès d'intention.
L'idée est la suivante : l'expression « human in the loop » fonctionne souvent comme un placeholder symbolique. On glisse un humain dans une chaîne de décision et on déclare le système sûr, sans jamais définir les conditions dans lesquelles cette participation humaine est réellement significative, proportionnée ou responsable. L'article propose de la remplacer par une notion de stewardship : ce que l'humain apporte, ce n'est pas de la supervision, c'est une exposition à la conséquence. Le modèle génère ; l'humain encaisse. L'asymétrie est structurelle, pas morale.
Là-dessus, je suis d'accord. Ça rejoint d'ailleurs directement une chose que je défends depuis longtemps : l'IA augmente, elle ne remplace pas. Le maillon de la chaîne qu'on ne peut pas externaliser, c'est précisément celui qui porte le coût de l'erreur et qui entretient un rapport adversarial avec la réalité quand le système dérive. Cette intuition-là tient debout.
Le problème, c'est tout ce qui l'entoure.
Le cœur du sujet : l'article est son propre mode de défaillance
Voilà ce qui m'a vraiment poussé à écrire ce billet.
L'article, en citant des travaux antérieurs du même auteur, forge deux termes pour décrire la manière dont les systèmes de raisonnement échouent sous pression :
- « Coherence inflation » : le moment où la structure récupérable d'un argument se met à ressembler à une explication complète, et où une cohérence interne croissante est prise pour une certitude métaphysique.
- « Hallucination as geometric overflow » : un texte qui garde sa fluidité, sa cohérence et son organisation explicative tout en dérivant au-delà des frontières qui fondaient à l'origine le raisonnement.
Relisez ces deux définitions. Elles sont une description exacte de l'article qui les contient.
Quarante pages de prose fluide, cohérente en interne, qui ne touche jamais terre. Chaque référence de la bibliographie est un autre document du même auteur, déposé sur le même dépôt, à l'intérieur du même cadre inventé. C'est une boucle de citation fermée : le texte se valide dans son propre vocabulaire. L'article anticipe même cette objection — il écrit noir sur blanc que « les lecteurs pourront interpréter ce travail comme récursivement auto-validant » — et la balaie en disant que ce n'est pas son intention. Mais reconnaître un cercle vicieux ne le brise pas. La bibliographie continue de se mordre la queue.
Et le détail qui couronne le tout : un DOI Zenodo n'est pas une relecture par les pairs. Zenodo attribue un DOI à tout ce qu'on y dépose — un PDF, un jeu de données, un mème. C'est un service d'archivage, pas un sceau de qualité. Les attributs de l'autorité académique — ORCID, DOI, sections numérotées en chiffres romains — relèvent de l'esthétique, pas de la substance.
Ce qu'on obtient au final, c'est un objet qui passe ses propres tests parce que c'est lui qui les a écrits, et qui ne peut en échouer aucun parce qu'il n'avance jamais la moindre affirmation vérifiable.
L'analogie d'ingénierie
Si vous êtes ingénieur, vous avez déjà le modèle mental pour comprendre exactement ce qui se joue ici.
Imaginez une PR qui compile proprement, passe le linter et affiche un CI au vert. Tous les tests passent. Puis vous ouvrez les tests et vous découvrez que c'est le code testé lui-même qui les a écrits, et que chaque assertion est une tautologie : expect(x).toBe(x). Le build est vert. La couverture est à 100 %. Et le système ne fait strictement rien.
C'est ça, l'article. Une cohérence syntaxique parfaite, zéro contact avec un oracle externe.
En programmation, on a l'instinct affûté pour ce genre de chose, parce que ça nous a mordus un nombre incalculable de fois. On sait qu'un test qui passe toujours ne vaut rien. On sait qu'un système qui ne se valide que contre lui-même — sans environnement de staging, sans données réelles, sans utilisateur pour râler — peut être profondément cassé tout en ayant l'air parfaitement sain. Une compilation propre n'est pas la correction. Un CI au vert n'est pas la vérité. C'est de la cohérence interne, une propriété bien moins coûteuse et bien moins précieuse.
La philosophie et la science ont le même instinct, et il porte un nom : la falsifiabilité. Une affirmation qu'on ne peut pas formuler de façon à ce qu'elle puisse se révéler fausse n'est pas fausse — selon la formule de Pauli, elle n'est « not even wrong ». Elle n'entre pas dans le jeu. Il n'y a rien à discuter, parce qu'il n'y a rien que le monde puisse contredire.
Ce qui rend un article solide
Ici, je tiens à être constructif, parce que la critique facile s'arrêterait à « c'est du vent ». La vraie question est : que lui faudrait-il pour être solide ?
Trois choses, par ordre de force décroissante.
1. Une thèse vérifiable, avec expériences, données et résultats
L'étalon-or. Vous affirmez quelque chose sur le monde, vous concevez un moyen de le mesurer, vous récoltez des données, et les résultats soit confortent la thèse, soit la font tomber. La clé, c'est que quelqu'un d'autre, depuis l'extérieur, puisse la reproduire et aboutir à sa propre conclusion. Les données ne vous appartiennent pas ; elles appartiennent à quiconque veut bien les répliquer.
Il y a quelques semaines, j'ai écrit sur un article d'alignement d'IA qui traite le système déployé comme une distribution de probabilité sur les trajectoires et définit l'alignement comme une appartenance topologique à un ensemble sûr. Pas besoin de suivre les maths pour saisir la différence de nature : cet article-là affirme que l'appartenance peut être prouvée avec des logs finis au moyen de bornes conformales. Il a une portée déclarée (systèmes de travail de l'information, pas IA incarnée). Vous pouvez en désaccord, attaquer ses hypothèses, chercher un contre-exemple. Il vous offre une prise. C'est ça qui fait qu'un article entre dans une conversation.
2. Une thèse falsifiable, même si vous ne pouviez pas la tester vous-même
Tout n'a pas besoin d'une expérience de laboratoire le jour de sa publication. Mais il faut tout de même que ce soit formulé de manière à pouvoir être mis à l'épreuve en principe, par quelqu'un, un jour. « Les équipes qui surveillent les trajectoires intermédiaires détectent les déviations plus tôt que celles qui ne surveillent que la sortie finale » est une affirmation que vous n'avez peut-être pas les données pour trancher aujourd'hui, mais que n'importe quelle équipe peut tenter de réfuter avec sa propre télémétrie. Elle est discutable sur un terrain partagé.
3. Au minimum, une thèse discutable en dehors de la tête de son auteur
C'est le plancher, et c'est exactement celui que l'article de Zenodo ne parvient pas à franchir. Une affirmation philosophique peut être parfaitement légitime sans la moindre expérience — la philosophie sérieuse le fait en permanence — pourvu qu'elle offre des définitions, des distinctions et des conséquences qu'un autre puisse saisir et contredire. Le réalisme structurel, le faillibilisme, le problème de l'induction : ce sont de vieilles positions philosophiques, débattues depuis des décennies, précisément parce qu'elles sont énoncées assez nettement pour que quelqu'un puisse dire « non, et voici pourquoi ».
L'article que j'ai lu ne fait pas ça. Il réemballe le réalisme structurel épistémique — une position qui existe depuis les années 1980 — dans un vocabulaire inventé (« survivable cognition », « recoverable continuity », « operational invariants ») et le présente comme une architecture propriétaire avec ses « couches de capacité ». Il se déclare « operational, not metaphysical » des dizaines de fois, sans jamais fournir une seule opération : pas une métrique, pas une procédure, pas un critère. Le mot « operational » fonctionne comme un talisman. Tout est défini par nominalisation abstraite et rien par une opération mesurable.
C'est une expérience de pensée scellée sur elle-même. Et une expérience de pensée dans laquelle personne ne peut entrer depuis l'extérieur, ce n'est pas de la recherche ; c'est un journal intime en typographie académique.
Pourquoi c'est désormais un problème d'ingénierie
Jusqu'ici, on pourrait croire à une querelle entre universitaires. Ce n'en est pas une. C'est notre problème, et il est devenu urgent pour une raison bien concrète : les modèles de langage sont des moteurs de cohérence.
Un LLM est optimisé pour produire la continuation la plus plausible, la plus fluide, la plus cohérente en interne d'un texte. Il n'est pas optimisé pour dire la vérité. Quand il fonctionne bien, les deux coïncident à peu près. Mais la cohérence et la correction sont des axes indépendants, et un modèle peut parcourir une très longue distance sur l'axe de la cohérence sans bouger d'un pouce sur celui de la correction. Il peut générer quarante pages impeccables sur un cadre qui n'existe pas, avec une bibliographie qui se cite elle-même, et chaque phrase s'emboîtera parfaitement dans la précédente.
L'article que j'ai lu porte toutes les empreintes d'une naissance de ce genre — et l'ironie est parfaite, parce qu'il décrit ce phénomène même sans se reconnaître dans le miroir.
C'est là que sa seule bonne idée revient, retournée contre lui. La défense contre la cohérence vide, ce n'est pas de se méfier de l'IA. C'est l'humain qui porte la conséquence et qui exerce la vérification. Le modèle génère la prose ; il faut bien quelqu'un pour demander « attends, est-ce que ça se vérifie ? Contre quoi ? Qui pourrait le répliquer ? Est-ce que les références existent en dehors de ce document ? ». Cette fonction-là ne peut pas être externalisée vers le système même qui génère le texte, pour la même raison qu'on ne laisse pas le code écrire et approuver ses propres tests.
C'est, presque mot pour mot, la thèse à laquelle je reviens sans cesse : l'IA augmente, elle ne remplace pas. L'augmentation est réelle et énorme. Mais la responsabilité épistémique — le contact avec un oracle externe — reste humaine. L'article voulait défendre cette idée et, au lieu de ça, il la démontre en étant l'exemple de ce qui arrive quand cette fonction manque.
Une checklist, pour ingénieurs
Pour que tout ça soit actionnable et pas seulement une plainte élégante, voici les questions que je me pose quand je lis — ou que j'écris — quelque chose qui prétend être une contribution sérieuse. Ce sont exactement celles qu'on se poserait dans un code review :
- Pouvez-vous énoncer l'affirmation centrale de façon à ce qu'elle puisse être fausse ? S'il n'existe aucun état du monde qui la contredirait, ce n'est pas une thèse ; c'est une définition déguisée.
- Y a-t-il la moindre mesure ? Des données, une expérience, une observation reproductible. Et à défaut, au moins une conséquence que quelqu'un pourrait aller chercher.
- Quelqu'un d'extérieur pourrait-il en discuter sur son propre terrain ? Ou faut-il d'abord avaler tout le vocabulaire de l'auteur pour pouvoir en débattre ?
- Les références forment-elles une boucle fermée ? Si chaque citation renvoie à l'auteur ou à son propre cadre, la bibliographie est une décoration, pas un fondement.
- Les termes sont-ils définis comme des opérations ou comme des substantifs abstraits ? Une « recoverability » qu'on ne sait pas mesurer est un mot, pas un concept.
- L'apparence d'autorité fait-elle le travail de la vérité ? Un DOI, un ORCID et des sections en chiffres romains ne sont pas une relecture par les pairs. Demandez-vous qui a réellement évalué ça.
Si un texte échoue à la plupart de ces questions, il peut être brillant, il peut être beau, il peut même être juste par accident — mais vous ne pouvez pas vous appuyer dessus. Et en production, s'appuyer sur des choses, c'est tout le métier.
Ce que j'en retiens
La cohérence est bon marché. Elle l'a toujours été, mais il fallait autrefois du talent ou de l'obsession pour produire quarante pages cohérentes en interne sur du vide. Aujourd'hui, c'est gratuit et instantané. Ce qui veut dire que la cohérence a cessé d'être un signal de qualité, et que toute la charge se reporte sur les propriétés qui auraient toujours dû compter : la vérifiabilité, la falsifiabilité, l'exposition à la contradiction venue de l'extérieur.
L'article que j'ai lu n'est pas solide, et il n'est pas technique — malgré tout son vocabulaire de géométrie vectorielle et de représentations sémantiques distribuées, il ne contient pas une équation, pas une donnée, pas une expérience. Mais il m'a été utile, parce qu'il est l'étude de cas parfaite d'une chose que nous devrons tous apprendre à repérer : un texte qui sonne comme une thèse et n'en est pas une.
Le travail d'ingénierie — et celui de quiconque veut penser correctement avec ces outils — n'est pas d'arrêter d'utiliser la machine qui génère de la prose fluide. C'est de garder la discipline de se demander, à chaque fois, contre quoi tout ça se vérifie. Parce qu'un système qui ne se valide que contre lui-même a l'air parfaitement sain — jusqu'au jour où vous le mettez face au monde.
Vous construisez des systèmes d'IA où l'écart entre cohérence et correction se paie en production, et vous préféreriez une équipe avec l'instinct de le vérifier contre la réalité ? Parlez à un CTO sur le déploiement de capacité d'ingénierie nearshore avec la discipline de ne pas confondre un CI au vert avec la vérité.


