Reptes

Que el LLM parli, no toqui: l'arquitectura de bucle tancat que sobreviu de debò a producció (3/3)

Per Marc Molas·13 de maig del 2026·11 min de lectura

Aquest és el post 3 de 3 d'una sèrie sobre el paper d'AI Infrastructure Sovereignty de Sergio Cruzes. La part 1 enquadrava per què la sobirania és infraestructura, no residència de dades; la part 2 tractava de la Feasible Sovereign Operating Region.

La tercera peça del paper AI Infrastructure Sovereignty de Sergio Cruzes que hauria de viatjar més lluny del que ho ha fet és el tros on dibuixa una línia arquitectònica dura: en un sistema d'infraestructura d'IA en bucle tancat, els LLMs són d'assessorament i interpretació. No executen. L'execució és la feina d'agents acotats i deterministes, validats per un digital twin, amb dos camins de feedback estrictament separats.

Desplego IA agèntica en entorns regulats per guanyar-me la vida. Estic "invertit" en aquesta tecnologia en el sentit més literal i facturable. I crec que l'arquitectura del paper és la correcta — que és exactament per què vull marcar que la majoria de productes que es venen com a plataformes agèntiques el 2026 la violen silenciosament. Posen el LLM més a prop de l'actuador del que el disseny del paper permet, i comercialitzen aquesta proximitat com a característica.

Aquest és el tercer post sobre el paper, després dels de sobirania-no-és-residència-de-dades i l'FSOR. Si aquells cobrien què has de controlar, aquest tracta de com s'ha de cablejar el bucle de control sense incendiar la sala de servidors.

L'arquitectura de referència de quatre capes, en un paràgraf

El paper proposa quatre capes apilades:

Física — data centers d'IA, xarxes òptiques, sistemes energètics. El substrat.
Observabilitat — normalització streaming, alineació de timestamps, certificació de frescor, fusió cross-domain. Produeix el vector d'estat unificat θ(t).
Control coordinat — agents de domini (compute, power, cooling, optical) + capa de coordinació + digital twin + una capa d'assistència LLM.
Execució segura — només arriben a la infraestructura viva les accions validades pel digital twin.

La frontera interessant és entre la 3 i la 4. La no-frontera interessant — la que la capa de hype vol difuminar — és entre l'assistència LLM i tota la resta dins de la capa 3.

Què diu realment Cruzes sobre els LLMs

El paper és inusualment explícit. La capa LLM té "només rol d'assessorament i interpretació." Existeix per:

Traduir intenció humana en objectius estructurats que els agents deterministes puguin consumir.
Generar explicacions del que el sistema agèntic ha decidit i per què.
Ser una superfície de llenguatge natural al damunt del sistema real de control, no un participant en ell.

I llavors el paper diu la part en veu alta:

Permetre que les sortides del LLM impulsin accions d'infraestructura directament — sense validació a través del constraint-checking determinista del sistema agèntic i la simulació pre-execució del digital twin — introdueix un mode de fallida en què instruccions plausibles però incorrectes s'executen sobre infraestructura viva.

Aquest és el mode de fallida del LLM en producció que jo personalment he vist a cinc revisions d'incident diferents els últims divuit mesos, cap d'elles en control de data center però totes en entorns regulats: el LLM produeix una cosa que sembla la comanda correcta, el sistema circumdant té massa pressa per executar-la, i el post-mortem es converteix en un exercici de "vam confiar en text on hauríem d'haver confiat en política." La versió data-center d'aquell incident no seria una vergonya de slack-bot. Seria un event tèrmic.

L'estructura agèntica de dos nivells

Dins de la capa de control coordinat, el paper separa:

Tier 1 — agents de domini. Raonadors especialitzats per a col·locació de compute, gestió de power, control de cooling, encaminament òptic. Cadascun té coneixement hard-coded de les restriccions i física del seu domini. Aquests fan la proposta real d'accions.
Tier 2 — capa de coordinació. Comprovació conjunta de factibilitat sobre totes les propostes del tier 1. Si compute vol col·locar un workload al site A, però l'agent de cooling diu que A està fora de pressupost donat el bulb humit actual, i l'agent òptic diu que l'enllaç a A està en mode degradat, el coordinador captura la contradicció. Si no existeix cap acció conjuntament factible, escala a humans en lloc de triar la menys dolenta silenciosament.

El LLM no és tier 1 i no és tier 2. El LLM seu fora d'aquest bucle. Explica el que el bucle ha fet. Accepta intenció humana i la reformula com a objectiu estructurat alimentat al bucle. No col·loca workloads. No estrangula racks. No reencamina camins òptics.

Aquest és un disseny defensable, regulator-friendly. També és un disseny que la majoria de plataformes "agèntiques" al mercat avui no satisfan, perquè la pressió de màrqueting és incloure el LLM a la decisió — aquí és on viu la demo del truc de màgia.

Dos camins de feedback, mantinguts estrictament separats

El detall que un enginyer apreciarà i un marketer se saltarà és la disciplina de dos camins de feedback:

Feedback A — resultats mesurats flueixen des de la capa física cap amunt a través de l'observabilitat. Això tanca el bucle de control. Els agents aprenen que l'acció que han fet ha produït (o no) el canvi d'estat esperat.
Feedback B — residus de predicció (la diferència entre el que el digital twin esperava i el que ha passat realment) flueixen de tornada només al digital twin. Així és com el twin detecta la seva pròpia deriva respecte a la realitat física.

El paper insisteix que aquests canals romanguin estrictament separats. Confon-los i destrueixes la detecció de deriva. Si el digital twin rep el mateix flux de mesura que el bucle de control de l'agent, sense aïllament, llavors una deriva lenta en la precisió del twin semblarà variància operativa normal als agents, i no veuràs la deriva fins que el twin prengui una decisió que el sistema físic rebutgi en un incident.

Aquest és el tipus de rigor arquitectònic que no ven llicències de plataforma però et manté fora d'un post-mortem.

On la majoria de plataformes "agèntiques" actuals trenquen això silenciosament

Generalitzaré pel que veig en arquitectures de clients i demos de proveïdors, sense anomenar noms:

LLM al camí d'acció. El producte ven "un agent que opera la teva infraestructura." Per sota, el LLM tant interpreta la petició com emet la comanda. No hi ha un agent tier 1 determinista amb restriccions hard-coded entre el LLM i l'actuador. Aquest és el mode de fallida que el paper nomena explícitament.
Digital twin com a actiu de màrqueting, no com a porta de validació. Molts productes mostren un "digital twin" renderitzat en 3D a la demo. Pocs requereixen que el twin validi cada acció proposada abans de l'execució. El twin és decoratiu. A l'arquitectura del paper, el twin és una porta; si la simulació del twin divergeix de la política, l'acció es bloqueja.
Telemetria de bucle únic. Tant l'agent com el twin consumeixen el mateix flux sense separació. Feedback A i B estan confosos, la detecció de deriva no és fiable, i el sistema perd silenciosament la propietat que el paper insisteix.
Cap contracte d'escalada. Quan la capa de coordinació no troba cap acció conjuntament factible, què passa? Al paper, degradació graciosa amb escalada estructurada a humans, que retenen autoritat final. En molts productes, el sistema simplement tria l'acció de menor cost sota una heurística de fallback i escriu un log de debug. Això no és degradació graciosa; és fallida silenciosa amb sistema de logging.
Human-on-the-loop com a checkbox. Existeix un dashboard humà; es revisa setmanalment. Operativament, els agents s'han mogut més ràpid que la cadència de revisió durant mesos. Aquesta és la versió data-center del HITL teatral que l'informe de McKinsey marcava per a sistemes agèntics generals. Mateixa malaltia, més radi d'explosió.

Si la teva plataforma falla en qualsevol d'aquestes proves, tens un sistema d'infraestructura agèntic en sentit de màrqueting i una demo amb permisos elevats en sentit operatiu.

Per què crec que l'arquitectura del paper és correcta

Tres raons, extretes de com això es desenvolupa realment a clients que han de defensar la pila:

1. El LLM és excel·lent a la capa on els seus errors són recuperables. Traduir "vull programar la propera ronda d'entrenament a algun lloc dins del nostre sobre de carboni" en un objectiu estructurat és un gran ús d'un LLM. Si la traducció és incorrecta, l'objectiu estructurat falla la validació i la petició torna amb un error. No s'ha pres cap acció física. Recuperable. Excel·lent.

2. El LLM és perillós a la capa on els seus errors no són recuperables. Generar la comanda exacta de throttling de rack és el lloc equivocat per usar el LLM, perquè si la comanda generada és plausible-però-incorrecta i s'executa, el sistema físic ja s'ha mogut. No hi ha "undo" en un cicle tèrmic. La separació del paper posa el LLM exactament on les seves fortaleses aterren i el treu d'on les seves debilitats mosseguen.

3. Vocabulari amb forma de regulador. Un supervisor en un sector regulat preguntarà, en qualsevol revisió d'incident: què va prendre la decisió, què la va validar, quina evidència en tens? El disseny del paper té una resposta neta per a cadascuna. El disseny LLM-al-camí-d'acció té, com a molt, "el model ha decidit," que és la resposta que desencadena els propers dos anys de feina de remediació.

Vull ser clar: sóc positiu envers els LLMs. Els desplego, tinc pell al joc que la IA funcioni en producció. No estic fent un argument de "els LLMs no són fiables, no els useu." Estic fent un argument de col·locació: els LLMs són l'eina correcta a la capa de llenguatge natural i d'explicació, i l'eina incorrecta a la capa d'execució. El paper formalitza la col·locació a què els bons operadors ja s'estaven aproximant informalment.

Què significa això per a la resta de la IA agèntica, no només data centers

El paper és específicament sobre control d'infraestructura d'IA, però l'arquitectura es generalitza netament a la majoria de desplegaments agèntics regulats:

Agent bancari que processa pagaments. El LLM tradueix la intenció del client. L'agent determinista amb política i límits emet el dèbit real. El digital twin (o pre-flight checks contra un ledger sandbox) valida abans del commit.
Agent de triatge sanitari. El LLM media el diàleg, resumeix l'historial. L'agent determinista aplica el protocol. Human-in-the-loop sobre qualsevol acció que produeixi efecte clínic.
Agent de control industrial. El LLM explica setpoints a l'operador i accepta targets de setpoint des de llenguatge natural. El controlador determinista mou la vàlvula realment, després que un simulador validi que el moviment no viola límits de procés.

En els tres, l'esquelet arquitectònic és el mateix que el del data center al paper: el LLM mai sosté l'actuador. Sosté l'explicació, la superfície de llenguatge natural i la traducció d'intenció. La frontera no es mou perquè el regulador i la física no es mouen.

Aquesta és la mateixa línia que vaig dibuixar als meus posts sobre proof-carrying deployment i arquitectura de governança verificable, des d'un altre angle. El paper de Cruzes proporciona la versió d'infraestructura física d'un argument que està convergint a través de sectors regulats: LLM útil, LLM no autoritari, agent determinista al camí de la conseqüència.

Què posaria al roadmap de plataforma aquest trimestre

Si hagués de traduir aquest tercer post a accions per a un equip de plataforma executant — o planificant executar — IA agèntica en un entorn seriós:

Mapeja el teu graf d'acció. Per a cada operació que un "agent" pot realitzar, marca quina capa l'emet: LLM, agent tier-1 determinista, o humà. Si el LLM apareix en algun lloc de la columna d'execució, tens feina de refactor per fer abans que el regulador la faci per tu.
Posa un digital twin davant de l'actuador. Encara que sigui groller. El punt no és la fidelitat; el punt és la porta. Una acció que el twin no pot simular, o que el twin mostra violant una restricció, no s'executa. Punt. Aquesta sola disciplina elimina una categoria d'incidents que semblen catastròfics al post-mortem i trivials en retrospectiva.
Separa feedback A i B. Els resultats van al bucle de control. Els residus del twin van al twin. Mateixa telemetria d'origen, dos pipelines, dues polítiques de retenció, dues línies de propietat. Aquesta és feina d'infra poc glamurosa; també és la feina que fa la detecció de deriva real.
Escriu el contracte d'escalada. Defineix què passa quan no existeix cap acció conjuntament factible. La resposta és humans, amb un handoff clar i un SLA publicat sobre la resposta. Qualsevol altra cosa és un fallback silenciós que sortirà a la llum en un incident.
Audita el teu proveïdor contra les quatre proves de més amunt. LLM no al camí d'acció; twin com a porta de validació real; camins de feedback separats; escalada explícita. Qualsevol "plataforma agèntica" que falli dues o més no és un sistema de grau regulador; és una demo de productivitat amb permisos elevats.

La línia que dibuixo — i per què la sostinc

Sóc crític amb el hype actual de la IA agèntica no perquè la tecnologia no sigui real — ho és, demostrablement, i la facturo — sinó perquè l'arquitectura comercialitzada està consistentment més a prop de l'actuador del que l'arquitectura d'enginyeria hauria d'estar. El paper de Cruzes, treballant al domini operatiu més exigent disponible (infraestructura d'IA viva sota restriccions físiques conjuntes), arriba a una disciplina que es tradueix netament a cada desplegament agèntic regulat: els LLMs parlen i expliquen. Els agents deterministes proposen. Els coordinadors comproven factibilitat. Els digital twins validen. Els humans autoritzen la política i són propietaris de l'escalada. El sistema físic només veu accions que han passat les quatre portes anteriors.

La plataforma agèntica més ràpida el 2026 no serà la que tingui el seu LLM més a prop del metall. Serà la que tingui el seu LLM honestament col·locat on viuen les seves fortaleses, amb la resta de la pila enginyada per absorbir les seves debilitats. Aquesta plataforma no farà la demo del truc de màgia. Farà l'auditoria un dimarts d'octubre a les 09:30 sense que ningú necessiti agafar-se el dia lliure.

Aquest és el sistema que vull seguir construint. Tot el demés és teatre amb permisos.

Fonts:

Sergio Cruzes (Ciena Corporation), AI Infrastructure Sovereignty, arXiv:2602.10900v4, abril de 2026. arxiv.org

Posant IA agèntica en producció i no segur que la teva arquitectura sobreviuria una revisió d'incident? Parla amb un CTO — t'ajudem a col·locar el LLM exactament on aterren les seves fortaleses i enlloc més.

Que el LLM parli, no toqui: l'arquitectura de bucle tancat que sobreviu de debò a producció (3/3)

L'arquitectura de referència de quatre capes, en un paràgraf

Què diu realment Cruzes sobre els LLMs

L'estructura agèntica de dos nivells

Dos camins de feedback, mantinguts estrictament separats

On la majoria de plataformes "agèntiques" actuals trenquen això silenciosament

Per què crec que l'arquitectura del paper és correcta

Què significa això per a la resta de la IA agèntica, no només data centers

Què posaria al roadmap de plataforma aquest trimestre

La línia que dibuixo — i per què la sostinc

Articles Relacionats

La Feasible Sovereign Operating Region: per què el teu roadmap d'IA topa amb un mur d'energia–carboni–aigua (2/3)

McKinsey 2026: la confiança en IA puja a 2,3. La meva infraestructura encara no s'ho creu.

La sobirania d'IA no és residència de dades. Són megawatts, fibra i temperatura de bulb humit. (1/3)

Preparat per construir el teu equip d'enginyeria?