Deja que el LLM hable, no que toque: la arquitectura de bucle cerrado que de verdad sobrevive a producción (3/3)
Este es el post 3 de 3 de una serie sobre el paper de Sergio Cruzes AI Infrastructure Sovereignty. La parte 1 enmarcaba por qué la soberanía es infraestructura, no residencia de datos; la parte 2 cubría la Feasible Sovereign Operating Region.
La tercera pieza del paper AI Infrastructure Sovereignty de Sergio Cruzes que merece más recorrido del que ha tenido es la parte en la que traza una línea arquitectónica tajante: en un sistema de infraestructura de IA en bucle cerrado, los LLMs asesoran e interpretan. No ejecutan. Ejecutar es trabajo de agentes deterministas y acotados, validados por un gemelo digital, con dos vías de feedback estrictamente separadas.
Me gano la vida desplegando IA agéntica en entornos regulados. Estoy «invertido» en esta tecnología en el sentido más literal y facturable de la palabra. Y creo que la arquitectura del paper es la correcta — precisamente por eso quiero señalar que la mayoría de los productos que se venden como plataformas agénticas en 2026 la incumplen sin decirlo. Colocan el LLM más cerca del actuador de lo que el diseño del paper permite, y luego venden esa cercanía como su punto fuerte.
Este es el tercer post sobre el paper, después de «la soberanía no es residencia de datos» y el de la FSOR. Si aquellos cubrían qué hay que controlar, este va de cómo hay que cablear el bucle de control sin prenderle fuego a la sala de servidores.
La arquitectura de referencia de cuatro capas, en un párrafo
El paper propone cuatro capas apiladas:
- Física — centros de datos de IA, redes ópticas, sistemas energéticos. El sustrato.
- Observabilidad — normalización de streams, alineación de timestamps, certificación de frescura de datos, fusión entre dominios. Produce el vector de estado unificado θ(t).
- Control coordinado — agentes de dominio (cómputo, energía, refrigeración, óptica) + capa de coordinación + gemelo digital + una capa de asistencia LLM.
- Ejecución segura — solo las acciones validadas por el gemelo digital llegan a la infraestructura viva.
La frontera interesante está entre la 3 y la 4. La no-frontera interesante — la que la capa de hype quiere difuminar — está entre la asistencia LLM y todo lo demás dentro de la capa 3.
Qué dice Cruzes, exactamente, sobre los LLMs
El paper es inusualmente explícito. La capa LLM tiene un «papel únicamente asesor e interpretativo». Existe para:
- Traducir la intención humana a objetivos estructurados que los agentes deterministas puedan consumir.
- Generar explicaciones de qué decidió el sistema agéntico y por qué.
- Ser una superficie de lenguaje natural sobre el sistema de control real, no un participante en él.
Y luego el paper pone negro sobre blanco lo que casi nadie se atreve a escribir:
Permitir que las salidas del LLM dirijan acciones de infraestructura directamente — sin la validación del chequeo determinista de restricciones del sistema agéntico y la simulación pre-ejecución del gemelo digital — introduce un modo de fallo en el que instrucciones que suenan plausibles, pero son incorrectas, se ejecutan sobre infraestructura viva.
Este es el modo de fallo del LLM en producción que he visto con mis propios ojos en cinco revisiones de incidente distintas en los últimos dieciocho meses, ninguna en control de centros de datos pero todas en entornos regulados: el LLM produce algo que parece el comando correcto, el sistema que lo rodea tiene demasiada prisa por ejecutarlo, y el post-mortem acaba siendo un ejercicio de «confiamos en texto donde deberíamos haber confiado en política». La versión data center de ese incidente no sería un bochorno de bot de Slack. Sería un evento térmico.
Dos niveles de agentes — y el LLM no está en ninguno
Dentro de la capa de control coordinado, el paper separa:
- Tier 1 — agentes de dominio. Razonadores especializados en colocación de cargas, gestión de energía, control de refrigeración y enrutado óptico. Cada uno lleva grabadas las restricciones y la física de su dominio. Son los que de verdad proponen las acciones.
- Tier 2 — capa de coordinación. Comprobación de factibilidad conjunta sobre todas las propuestas del tier 1. Si cómputo quiere colocar una carga en el sitio A, pero el agente de refrigeración dice que A se sale de presupuesto con la temperatura de bulbo húmedo actual, y el agente óptico dice que el enlace a A está en modo degradado, el coordinador detecta la contradicción. Si no existe ninguna acción conjuntamente factible, escala a humanos en lugar de elegir en silencio la opción menos mala.
El LLM no es tier 1 y no es tier 2. El LLM queda fuera de este bucle. Explica lo que el bucle ha hecho. Acepta intención humana y la reformula como un objetivo estructurado que alimenta el bucle. No coloca cargas. No estrangula racks. No reenruta caminos ópticos.
Es un diseño defendible y cómodo de explicar ante un regulador. También es un diseño que la mayoría de las plataformas «agénticas» que hay hoy en el mercado no cumplen, porque la presión de marketing empuja a incluir el LLM en la decisión — ahí es donde vive la demo del truco de magia.
Dos vías de feedback, estrictamente separadas
El detalle que un ingeniero apreciará y un responsable de marketing pasará por alto es la disciplina de las dos vías de feedback:
- Feedback A — los resultados medidos fluyen desde la capa física hacia arriba a través de observabilidad. Esto cierra el bucle de control. Los agentes aprenden que la acción que tomaron produjo (o no) el cambio de estado esperado.
- Feedback B — los residuos de predicción (la diferencia entre lo que el gemelo digital esperaba y lo que ocurrió de verdad) vuelven únicamente al gemelo digital. Así es como el gemelo detecta su propio drift respecto a la realidad física.
El paper insiste en que estos canales se mantengan estrictamente separados. Mézclalos y destruyes la detección de drift. Si el gemelo digital recibe el mismo stream de medición que el bucle de control de los agentes, sin aislamiento, un drift lento en la precisión del gemelo parecerá varianza operativa normal a ojos de los agentes, y no lo verás hasta que el gemelo tome una decisión que el sistema físico rechace en forma de incidente.
Este es el tipo de rigor arquitectónico que no vende licencias de plataforma, pero te mantiene fuera del post-mortem.
Dónde la mayoría de las plataformas «agénticas» actuales incumplen esto sin decirlo
Voy a generalizar a partir de lo que veo en arquitecturas de clientes y en demos de proveedores, sin dar nombres:
-
LLM en el camino de la acción. El producto vende «un agente que opera tu infraestructura». Por debajo, el LLM interpreta la petición y, además, emite el comando. No hay ningún agente determinista de tier 1 con restricciones grabadas entre el LLM y el actuador. Este es el modo de fallo que el paper nombra explícitamente.
-
Gemelo digital como activo de marketing, no como gate de validación. Muchos productos enseñan en la demo un «gemelo digital» renderizado en 3D. Pocos exigen que el gemelo valide cada acción propuesta antes de ejecutarla. El gemelo es decorativo. En la arquitectura del paper, el gemelo es un gate: si la simulación del gemelo se desvía de la política, la acción se bloquea.
-
Telemetría de un solo bucle. El agente y el gemelo consumen el mismo stream sin separación. El feedback A y el B se mezclan, la detección de drift deja de ser fiable y el sistema pierde en silencio la propiedad sobre la que el paper insiste.
-
Sin contrato de escalado. Cuando la capa de coordinación no encuentra ninguna acción conjuntamente factible, ¿qué pasa? En el paper, degradación controlada con escalado estructurado a humanos, que conservan la autoridad final. En muchos productos, el sistema simplemente elige la acción de menor coste con una heurística de respaldo y escribe un log de debug. Eso no es degradación controlada; es fallo silencioso con sistema de logging.
-
Human-on-the-loop como casilla que marcar. Existe un dashboard humano; se revisa una vez por semana. En la práctica, los agentes llevan meses moviéndose más rápido que la cadencia de revisión. Es la versión data center del HITL de teatro que el informe de McKinsey señaló para los sistemas agénticos en general. La misma enfermedad, con mayor radio de impacto.
Si tu plataforma suspende cualquiera de estas pruebas, tienes un sistema de infraestructura agéntica en el sentido del marketing y una demo con permisos elevados en el sentido operativo.
Por qué creo que la arquitectura del paper es la correcta
Tres razones, sacadas de cómo acaba esto en los clientes que tienen que defender la pila:
1. El LLM es excelente en la capa donde sus errores son recuperables. Traducir «quiero programar el próximo entrenamiento en algún sitio dentro de nuestro presupuesto de carbono» a un objetivo estructurado es un uso magnífico de un LLM. Si la traducción es errónea, el objetivo estructurado no pasa la validación y la petición vuelve con un error. No se ha tocado nada físico. Recuperable. Excelente.
2. El LLM es peligroso en la capa donde sus errores no son recuperables. Generar el comando exacto que estrangula un rack es el sitio equivocado para usar el LLM, porque si el comando generado es plausible pero incorrecto y se ejecuta, el sistema físico ya se ha movido. Un ciclo térmico no tiene «deshacer». La separación del paper coloca al LLM justo donde brillan sus fortalezas y lo aparta de donde muerden sus debilidades.
3. Vocabulario a la medida del regulador. Un supervisor de un sector regulado preguntará, en cualquier revisión de incidente: ¿qué tomó la decisión, qué la validó, qué evidencia tienes? El diseño del paper tiene una respuesta limpia para cada pregunta. El diseño con el LLM en el camino de la acción tiene, como mucho, «lo decidió el modelo», que es la respuesta que dispara los siguientes dos años de trabajo de remediación.
Quiero ser claro: estoy a favor de los LLMs. Los despliego, me juego la piel en que la IA funcione en producción. No estoy defendiendo que «los LLMs no son fiables, no los uses». Estoy defendiendo un argumento de colocación: los LLMs son la herramienta correcta en la capa de lenguaje natural y explicación, y la equivocada en la capa de ejecución. El paper formaliza la colocación a la que los buenos operadores ya estaban llegando de manera informal.
Qué implica esto para el resto de la IA agéntica, no solo para los centros de datos
El paper habla específicamente del control de infraestructura de IA, pero la arquitectura generaliza limpiamente a la mayoría de los despliegues agénticos regulados:
- Agente bancario que procesa pagos. El LLM traduce la intención del cliente. Un agente determinista con política y límites emite el débito real. Un gemelo digital (o comprobaciones previas contra un libro mayor en sandbox) valida antes del commit.
- Agente de triaje sanitario. El LLM media en el diálogo y resume el historial. Un agente determinista aplica el protocolo. Human-in-the-loop en cualquier acción con efecto clínico.
- Agente de control industrial. El LLM explica los setpoints al operador y acepta objetivos de setpoint en lenguaje natural. El controlador determinista es quien mueve la válvula, después de que un simulador valide que el movimiento no viola los límites del proceso.
En los tres casos, el esqueleto arquitectónico es el mismo que el del centro de datos del paper: el LLM nunca sostiene el actuador. Sostiene la explicación, la superficie de lenguaje natural y la traducción de la intención. La frontera no se mueve porque ni el regulador ni la física se mueven.
Es la misma línea que tracé, desde otro ángulo, en mis posts sobre proof-carrying deployment y la arquitectura de gobernanza verificable. El paper de Cruzes aporta la versión de infraestructura física de un argumento que está convergiendo en todos los sectores regulados: LLM útil, LLM sin autoridad, agente determinista en el camino de las consecuencias.
Qué pondría en el roadmap de plataforma este trimestre
Si tuviera que traducir este tercer post a acciones para un equipo de plataforma que opera — o planea operar — IA agéntica en un entorno serio:
-
Mapea tu grafo de acciones. Para cada operación que un «agente» pueda realizar, marca qué capa la emite: LLM, agente determinista de tier 1 o humano. Si el LLM aparece en cualquier punto de la columna de ejecución, tienes trabajo que rehacer antes de que el regulador lo rehaga por ti.
-
Pon un gemelo digital delante del actuador. Aunque sea uno básico. Lo importante no es la fidelidad; lo importante es el gate. Una acción que el gemelo no pueda simular, o que el gemelo muestre violando una restricción, no se ejecuta. Punto. Esta única disciplina elimina una categoría de incidentes que parecen catastróficos en el post-mortem y triviales en retrospectiva.
-
Separa el feedback A del B. Los resultados van al bucle de control. Los residuos del gemelo van al gemelo. La misma telemetría de origen, dos pipelines, dos políticas de retención, dos líneas de ownership. Es trabajo de infraestructura poco glamuroso; también es el que hace real la detección de drift.
-
Escribe el contrato de escalado. Define qué pasa cuando no existe ninguna acción conjuntamente factible. La respuesta es humanos, con un traspaso claro y un SLA de respuesta publicado. Cualquier otra cosa es un respaldo silencioso que acabará aflorando en un incidente.
-
Audita a tu proveedor contra las cuatro pruebas de arriba. LLM fuera del camino de la acción; gemelo como gate de validación real; vías de feedback separadas; escalado explícito. Cualquier «plataforma agéntica» que suspenda dos o más no es un sistema a la altura de un regulador; es una demo de productividad con permisos elevados.
La línea que trazo — y por qué la mantengo
Soy crítico con el hype actual de la IA agéntica no porque la tecnología no sea real — lo es, de forma demostrable, y la facturo — sino porque la arquitectura que se comercializa está sistemáticamente más cerca del actuador de lo que la arquitectura de ingeniería debería estar. El paper de Cruzes, trabajando en el dominio operativo más exigente que existe (infraestructura de IA viva bajo restricciones físicas conjuntas), llega a una disciplina que se traduce limpiamente a cualquier despliegue agéntico regulado: los LLMs hablan y explican. Los agentes deterministas proponen. Los coordinadores comprueban la factibilidad. Los gemelos digitales validan. Los humanos autorizan la política y son los dueños del escalado. El sistema físico solo ve acciones que han superado las cuatro puertas anteriores.
La plataforma agéntica más rápida de 2026 no será la que tenga el LLM más pegado al metal. Será la que tenga el LLM colocado con honestidad donde viven sus fortalezas, con el resto de la pila diseñada para absorber sus debilidades. Esa plataforma no protagonizará la demo del truco de magia. Superará la auditoría de un martes de octubre a las 09:30 sin que nadie tenga que tomarse el día libre.
Ese es el sistema que quiero seguir construyendo. Todo lo demás es teatro con permisos.
Fuentes:
- Sergio Cruzes (Ciena Corporation), AI Infrastructure Sovereignty, arXiv:2602.10900v4, abril de 2026. arxiv.org
¿Estás poniendo IA agéntica en producción y no tienes claro que tu arquitectura sobreviviría a una revisión de incidente? Habla con un CTO — te ayudamos a colocar el LLM justo donde brillan sus fortalezas, y en ningún otro sitio.


