Que l'LLM parli, però que no toqui: l'arquitectura de bucle tancat que sobreviu de debò a producció (3/3)
Aquest és el post 3 de 3 d'una sèrie sobre el paper AI Infrastructure Sovereignty de Sergio Cruzes. La part 1 explicava per què la sobirania és infraestructura, i no residència de dades; la part 2 tractava la Feasible Sovereign Operating Region.
La tercera peça del paper AI Infrastructure Sovereignty de Sergio Cruzes que mereixeria més recorregut del que ha tingut és el punt on traça una línia arquitectònica innegociable: en un sistema d'infraestructura d'IA de bucle tancat, els LLM assessoren i interpreten. No executen. Executar és feina d'agents acotats i deterministes, validats per un digital twin, amb dos camins de feedback estrictament separats.
Em guanyo la vida desplegant IA agèntica en entorns regulats. Hi estic «invertit» en el sentit més literal i facturable de la paraula. I crec que l'arquitectura del paper és la correcta — i precisament per això vull deixar dit que la majoria de productes que el 2026 es venen com a plataformes agèntiques se la salten en silenci. Posen l'LLM més a prop de l'actuador del que el disseny del paper tolera, i després venen aquesta proximitat com si fos la gràcia del producte.
Aquest és el tercer post sobre el paper, després del de la sobirania no és residència de dades i el de l'FSOR. Si aquells explicaven què has de controlar, aquest va de com s'ha de cablejar el bucle de control sense calar foc a la sala de màquines.
L'arquitectura de referència de quatre capes, en un paràgraf
El paper proposa quatre capes apilades:
- Física — centres de dades d'IA, xarxes òptiques, sistemes d'energia. El substrat.
- Observabilitat — normalització de fluxos, alineació de timestamps, certificació de frescor, fusió entre dominis. Produeix el vector d'estat unificat θ(t).
- Control coordinat — agents de domini (còmput, energia, refrigeració, òptica) + nivell de coordinació + digital twin + una capa d'assistència LLM.
- Execució segura — a la infraestructura viva només hi arriben accions validades pel digital twin.
La frontera interessant és la que separa la 3 de la 4. La no-frontera interessant — la que la capa de hype voldria difuminar — és la que hi ha entre l'assistència LLM i tota la resta dins de la capa 3.
Què diu Cruzes, exactament, sobre els LLM
El paper és inusualment explícit. La capa LLM té «un rol només d'assessorament i interpretació». Existeix per a:
- Traduir la intenció humana en objectius estructurats que els agents deterministes puguin consumir.
- Generar explicacions del que el sistema agèntic ha decidit i per què.
- Ser una superfície de llenguatge natural damunt del sistema de control real, no una part d'aquest sistema.
I llavors el paper diu en veu alta el que normalment es calla:
Permetre que les sortides de l'LLM impulsin directament accions d'infraestructura — sense la validació del control determinista de restriccions del sistema agèntic ni la simulació prèvia a l'execució del digital twin — introdueix un mode de fallada en què instruccions plausibles però incorrectes s'executen sobre infraestructura viva.
Aquest és el mode de fallada de l'LLM en producció que jo mateix he vist en cinc revisions d'incident diferents els últims divuit mesos — cap en control de centres de dades, però totes en entorns regulats: l'LLM produeix una cosa que sembla l'ordre correcta, el sistema que l'envolta s'afanya massa a executar-la, i el post-mortem acaba sent un exercici de «vam confiar en el text quan hauríem d'haver confiat en la política». La versió centre-de-dades d'aquest incident no seria la vergonyeta d'un bot de Slack. Seria un incident tèrmic.
Dos nivells d'agents — i l'LLM no és a cap dels dos
Dins de la capa de control coordinat, el paper hi separa:
- Nivell 1 — agents de domini. Raonadors especialitzats en col·locació de còmput, gestió d'energia, control de refrigeració, encaminament òptic. Cadascun porta incorporades les restriccions i la física del seu domini. Són aquests els qui proposen les accions.
- Nivell 2 — capa de coordinació. Comprova la viabilitat conjunta de totes les propostes del nivell 1. Si còmput vol col·locar una càrrega al centre A, però l'agent de refrigeració diu que A va fora de marge amb la temperatura de bulb humit actual, i l'agent òptic diu que l'enllaç cap a A està degradat, el coordinador detecta la contradicció. I si no hi ha cap acció conjuntament viable, escala a humans en lloc de triar en silenci la menys dolenta.
L'LLM no és al nivell 1 i no és al nivell 2. L'LLM queda fora d'aquest bucle. Explica què ha fet el bucle. Recull la intenció humana i la reformula com un objectiu estructurat que entra al bucle. No col·loca càrregues. No retalla la potència de cap rack. No reencamina cap camí òptic.
És un disseny defensable, fàcil d'explicar a un regulador. I és també un disseny que la majoria de plataformes «agèntiques» que hi ha avui al mercat no compleixen, perquè la pressió de màrqueting empeny a ficar l'LLM dins de la decisió — que és on viu la demo del truc de màgia.
Dos camins de feedback, estrictament separats
El detall que un enginyer apreciarà i que el de màrqueting passarà per alt és la disciplina dels dos camins de feedback:
- Feedback A — els resultats mesurats pugen de la capa física a través de l'observabilitat. Això tanca el bucle de control. Els agents aprenen que l'acció que han pres ha produït (o no) el canvi d'estat esperat.
- Feedback B — els residus de predicció (la diferència entre el que el digital twin esperava i el que ha passat de debò) tornen només al digital twin. És així com el twin detecta la seva pròpia deriva respecte de la realitat física.
El paper insisteix que aquests dos canals s'han de mantenir estrictament separats. Si els barreges, et carregues la detecció de deriva. Si el digital twin rep el mateix flux de mesures que el bucle de control dels agents, sense aïllament, una deriva lenta en la precisió del twin semblarà variància operativa normal als ulls dels agents, i no la veuràs fins que el twin prengui una decisió que el sistema físic rebutgi en forma d'incident.
És la mena de rigor arquitectònic que no ven llicències de plataforma, però que et manté fora dels post-mortems.
On la majoria de plataformes «agèntiques» actuals es salten això sense fer soroll
Generalitzo a partir del que veig en arquitectures de clients i demos de proveïdors, sense dir noms:
-
L'LLM al camí d'acció. El producte ven «un agent que t'opera la infraestructura». Per dins, l'LLM interpreta la petició i, alhora, emet l'ordre. Entre l'LLM i l'actuador no hi ha cap agent determinista de nivell 1 amb restriccions incorporades. És el mode de fallada que el paper anomena explícitament.
-
El digital twin com a actiu de màrqueting, no com a porta de validació. Molts productes ensenyen un «digital twin» renderitzat en 3D a la demo. Pocs exigeixen que el twin validi cada acció proposada abans d'executar-la. El twin és decoratiu. A l'arquitectura del paper, el twin és una porta: si la simulació del twin divergeix de la política, l'acció queda bloquejada.
-
Telemetria d'un sol bucle. L'agent i el twin consumeixen el mateix flux sense cap separació. El feedback A i el B queden barrejats, la detecció de deriva deixa de ser fiable, i el sistema perd en silenci justament la propietat en què el paper insisteix.
-
Cap contracte d'escalada. Quan la capa de coordinació no troba cap acció conjuntament viable, què passa? Al paper: degradació controlada amb escalada estructurada a humans, que conserven l'autoritat final. En molts productes, el sistema tria l'acció de cost mínim segons una heurística de reserva i escriu un log de depuració. Això no és degradació controlada; és una fallada silenciosa amb sistema de logging.
-
El human-on-the-loop com a casella per marcar. Hi ha un tauler per a humans; es revisa un cop per setmana. A la pràctica, fa mesos que els agents van més de pressa que la cadència de revisió. És la versió centre-de-dades del HITL de teatre que l'informe de McKinsey assenyalava per als sistemes agèntics en general. La mateixa malaltia, amb un radi d'explosió més gran.
Si la teva plataforma falla una sola d'aquestes proves, tens un sistema d'infraestructura agèntic en el sentit de màrqueting i una demo amb permisos elevats en el sentit operatiu.
Per què crec que l'arquitectura del paper és la correcta
Tres raons, tretes de com va això de debò amb clients que han de poder defensar la seva pila:
1. L'LLM és excel·lent a la capa on els seus errors es poden recuperar. Traduir «vull programar la pròxima tanda d'entrenament en algun lloc dins del nostre marge de carboni» en un objectiu estructurat és un ús magnífic d'un LLM. Si la traducció és errònia, l'objectiu estructurat no passa la validació i la petició torna amb un error. No s'ha executat cap acció física. Recuperable. Perfecte.
2. L'LLM és perillós a la capa on els seus errors no es poden recuperar. Generar l'ordre exacta de retallada de potència d'un rack és el lloc equivocat per fer-hi servir l'LLM, perquè si l'ordre generada és plausible però errònia i s'executa, el sistema físic ja s'ha mogut. Un cicle tèrmic no té «desfer». La separació del paper posa l'LLM exactament allà on rendeixen les seves fortaleses i el treu d'allà on les seves debilitats fan mal.
3. Vocabulari a la mida del regulador. Un supervisor d'un sector regulat, en qualsevol revisió d'incident, preguntarà: qui ha pres la decisió, què l'ha validat, quines proves en tens? El disseny del paper té una resposta neta per a cada pregunta. El disseny amb l'LLM al camí d'acció té, com a molt, «ho ha decidit el model» — que és la resposta que et regala els dos anys següents de feina de remediació.
Que quedi clar: estic a favor dels LLM. Els desplego, i m'hi jugo la pell — i la factura — que la IA funcioni en producció. No estic dient «els LLM no són fiables, no els feu servir». El meu argument és de col·locació: els LLM són l'eina correcta a la capa de llenguatge natural i d'explicació, i l'eina equivocada a la capa d'execució. El paper formalitza la col·locació cap a la qual els bons operadors ja convergien informalment.
Què vol dir això per a la resta de la IA agèntica, no només per als centres de dades
El paper parla específicament de control d'infraestructura d'IA, però l'arquitectura es generalitza netament a la majoria de desplegaments agèntics regulats:
- Agent bancari que processa pagaments. L'LLM tradueix la intenció del client. L'agent determinista, amb política i límits, és qui emet el càrrec real. El digital twin (o unes comprovacions prèvies contra un llibre major en sandbox) valida abans de confirmar.
- Agent de triatge sanitari. L'LLM condueix el diàleg i resumeix l'historial. L'agent determinista aplica el protocol. Human-in-the-loop per a qualsevol acció amb efecte clínic.
- Agent de control industrial. L'LLM explica les consignes a l'operador i accepta objectius de consigna en llenguatge natural. Qui mou la vàlvula de debò és el controlador determinista, després que un simulador hagi validat que el moviment no viola cap límit de procés.
En tots tres casos, l'esquelet arquitectònic és el mateix que el del centre de dades del paper: l'LLM no té mai l'actuador a les mans. Té l'explicació, la superfície de llenguatge natural i la traducció de la intenció. La frontera no es mou perquè ni el regulador ni la física es mouen.
És la mateixa línia que vaig traçar, des d'un altre angle, als posts sobre proof-carrying deployment i sobre arquitectura de governança verificable. El paper de Cruzes aporta la versió d'infraestructura física d'un argument que està convergint a tots els sectors regulats: LLM útil, LLM sense autoritat, agent determinista al camí de la conseqüència.
Què posaria al roadmap de plataforma aquest trimestre
Si hagués de traduir aquest tercer post en accions per a un equip de plataforma que opera — o que té previst operar — IA agèntica en un entorn seriós:
-
Fes el mapa del teu graf d'accions. Per a cada operació que un «agent» pugui executar, marca quina capa l'emet: l'LLM, un agent determinista de nivell 1 o un humà. Si l'LLM apareix en qualsevol punt de la columna d'execució, tens feina per refer abans que el regulador te la faci refer.
-
Posa un digital twin davant de l'actuador. Encara que sigui rudimentari. La qüestió no és la fidelitat; la qüestió és la porta. Una acció que el twin no pot simular, o que el twin mostra que viola una restricció, no s'executa. Punt. Aquesta sola disciplina elimina tota una categoria d'incidents que al post-mortem semblen catastròfics i, vistos amb perspectiva, trivials.
-
Separa el feedback A i el B. Els resultats van al bucle de control. Els residus del twin van al twin. La mateixa telemetria d'origen, dos pipelines, dues polítiques de retenció, dos responsables. És feina d'infra gens vistosa; també és la feina que fa que la detecció de deriva sigui real.
-
Escriu el contracte d'escalada. Defineix què passa quan no hi ha cap acció conjuntament viable. La resposta és humans, amb un traspàs clar i un SLA de resposta publicat. Qualsevol altra cosa és un mecanisme de reserva silenciós que acabarà sortint en un incident.
-
Audita el teu proveïdor amb les quatre proves de més amunt. L'LLM fora del camí d'acció; el twin com a porta de validació de debò; els camins de feedback separats; l'escalada explícita. Qualsevol «plataforma agèntica» que en falli dues o més no és un sistema a l'altura d'un regulador; és una demo de productivitat amb permisos elevats.
La línia que traço — i per què la mantinc
Soc crític amb el hype actual de la IA agèntica no perquè la tecnologia no sigui real — ho és, de manera demostrable, i la facturo —, sinó perquè l'arquitectura que es ven és sistemàticament més a prop de l'actuador del que l'arquitectura d'enginyeria hauria de ser. El paper de Cruzes, treballant al domini operatiu més exigent que hi ha (infraestructura d'IA viva sota restriccions físiques conjuntes), arriba a una disciplina que es trasllada netament a qualsevol desplegament agèntic regulat: els LLM parlen i expliquen. Els agents deterministes proposen. Els coordinadors comproven la viabilitat. Els digital twins validen. Els humans autoritzen la política i són els amos de l'escalada. El sistema físic només veu accions que han passat les quatre portes anteriors.
La plataforma agèntica més ràpida del 2026 no serà la que tingui l'LLM més a prop del metall. Serà la que tingui l'LLM col·locat honestament allà on viuen les seves fortaleses, amb la resta de la pila dissenyada per absorbir-ne les debilitats. Aquesta plataforma no farà la demo del truc de màgia. Passarà l'auditoria un dimarts d'octubre a les 09:30 sense que ningú s'hagi d'agafar el dia lliure.
Aquest és el sistema que vull continuar construint. Tota la resta és teatre amb permisos.
Fonts:
- Sergio Cruzes (Ciena Corporation), AI Infrastructure Sovereignty, arXiv:2602.10900v4, abril de 2026. arxiv.org
Estàs posant IA agèntica en producció i no tens clar si la teva arquitectura sobreviuria una revisió d'incident? Parla amb un CTO — t'ajudem a col·locar l'LLM exactament allà on rendeix, i enlloc més.


