← Volver a todos los artículos
Retos

Alinear la IA por Construcción: Un Framework Matemático Construido Sobre Restricciones, No Entrenamiento

Por Marc Molas·6 de abril de 2026·11 min de lectura

El enfoque por defecto de la alineación de IA durante los últimos años ha sido centrado en el entrenamiento: ajusta fino el modelo con la señal de recompensa correcta, entrénalo para rechazar ciertas acciones, entrénalo para producir respuestas dentro de una distribución aceptable. Este enfoque ha producido progreso real, pero es vulnerable de una manera específica: la alineación se vuelve una propiedad de los datos de entrenamiento y la función de recompensa, ambas pueden ser erróneas, sesgadas o estratégicamente desalineadas de maneras que no son visibles hasta el despliegue.

El paper reciente A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Fradelos, enero 2026) toma una postura diferente: desacopla explícitamente la alineación de la calidad del entrenamiento. El modelo base puede ser débil, sesgado o incluso estratégicamente desalineado, y el sistema desplegado todavía está alineado por construcción — porque la alineación la impone una capa de restricción externa y un monitor, no el entrenamiento del modelo.

La matemática no es trivial. Las implicaciones de ingeniería son útiles aunque no sigas la matemática, porque las decisiones de diseño se mapean a decisiones prácticas que cualquier equipo que envía sistemas de IA tiene que tomar.

El Movimiento Central: Alineación como Condición de Pertenencia Topológica

La idea central, despojada de formalismo: trata el sistema de IA desplegado como induciendo una distribución de probabilidad sobre trayectorias infinitas de acción-observación. La alineación se define entonces como la pertenencia de la distribución del sistema desplegado a un conjunto específico y bien comportado de distribuciones — llámalo el conjunto seguro.

Esta es una condición topológica. O bien la distribución de trayectorias del sistema está en el conjunto seguro, o no lo está. El conjunto seguro se define por restricciones de seguridad, legalidad y corrigibilidad codificadas como funciones escalares sobre distribuciones de probabilidad.

Este encuadre tiene tres consecuencias útiles:

1. La alineación es una propiedad del sistema desplegado, no del modelo

El mismo modelo puede producir un sistema desplegado alineado o desalineado, dependiendo de la capa de restricción a su alrededor. Si la capa impone la condición de pertenencia, el sistema desplegado está alineado, sin importar cómo se entrenó el modelo. Si no la impone, el sistema desplegado no está alineado, sin importar lo bueno que sea el modelo.

Esta es la misma idea detrás de las arquitecturas de gobernanza verificable: no confíes en el modelo, limita la superficie de acción. El encuadre matemático hace la restricción precisa.

2. El desacoplamiento de la calidad del entrenamiento es explícito

El framework empieza desde la asunción de que el modelo base puede ser débil, sesgado o estratégicamente desalineado. Luego pregunta: ¿bajo qué condiciones todavía podemos producir un sistema desplegado alineado?

La respuesta es: cuando la capa de restricción está bien diseñada y el monitor es suficiente. Esto es mucho más robusto que la alineación-vía-entrenamiento, porque no requiere confianza en el proceso de entrenamiento. Los problemas de calidad de entrenamiento se vuelven una preocupación de calidad (el modelo produce salida menos útil) en lugar de una preocupación de seguridad.

3. La alineación se vuelve verificable

Si la alineación es pertenencia a un conjunto, entonces verificar la alineación es probar la pertenencia. El framework proporciona condiciones explícitas bajo las cuales la pertenencia puede probarse con logs finitos (usando cotas conformales/PAC), lo que hace la matemática operacionalizable.

Outputs Progresivos: Haciendo que el No-Determinismo No Esté Oculto

El segundo movimiento central son los outputs progresivos: outputs parciales alineados con la filtración que hacen visible el no-determinismo del sistema al monitoreo en lugar de ocultarlo.

La motivación es operativa. Los sistemas de IA modernos son estocásticos — producen salidas diferentes con la misma entrada dependiendo del sampling. Un sistema que emite una salida final solo después de una computación interna extensa oculta esta estocasticidad. Las violaciones de alineación pueden ser transitorias y no aparecer en la salida final incluso cuando están presentes en la trayectoria.

Los outputs progresivos cambian esto emitiendo el estado del sistema a lo largo de una filtración — una secuencia de salidas parciales que crece con el tiempo. Cada salida parcial es una cantidad observable que puede ser monitoreada. Las violaciones aparecen como drift distribucional medible en el espacio de trayectorias.

Traducido para equipos de ingeniería: no monitores solo la respuesta final. Monitorea los estados intermedios del agente — sus tool calls, su reasoning trace, sus salidas parciales — a medida que se producen. La detección de drift trabaja sobre esta trayectoria, no solo sobre los resultados finales. Esta es la versión formal de lo que algunos equipos de IA agéntica han estado haciendo informalmente desde hace un tiempo: streamar el razonamiento del agente, monitorear cada paso, alertar sobre patrones que divergen de la distribución segura.

Por Qué Importa la Topología de Wasserstein Aquí

El framework usa topologías débiles/Wasserstein en el espacio de distribuciones de probabilidad. La versión no matemática: esta es la manera correcta de medir cómo de "cercanas" son dos distribuciones cuando te preocupas por las consecuencias de acción en lugar de las probabilidades de acción.

La divergencia KL — la medida más familiar — es sensible a las probabilidades específicas de acciones específicas. Un sistema que es casi siempre seguro pero tiene una probabilidad pequeña de acción catastrófica puede tener KL bajo desde un sistema completamente seguro pero consecuencias en el mundo real muy diferentes. La distancia de Wasserstein tiene en cuenta la magnitud de la diferencia entre acciones, no solo sus probabilidades.

Para el monitoreo práctico de seguridad, esto importa porque quieres una métrica que capture "esta distribución empieza a tomar acciones peligrosas ocasionalmente", no solo "esta distribución parece ligeramente diferente de la segura". La distancia de Wasserstein está más cerca de lo que realmente quieres medir.

Este es el tipo de detalle que no importa hasta que sí. La mayoría de detección de drift en producción en 2026 usa métricas más simples que pierden el caso raro-pero-catastrófico.

La Restricción de Alcance que Vale la Pena Nombrar

El framework restringe deliberadamente el alcance a sistemas de trabajo de información — análisis, razonamiento, soporte a decisiones, flujos de oficina — sin actuación física directa. Robots, vehículos autónomos, IA encarnada quedan fuera de alcance.

Esta es una elección de ingeniería seria, no un escapismo. Excluir los sistemas físicos hace el framework factible y auditable: puedes capturar, registrar y verificar trayectorias de trabajo de información de una manera mucho más difícil para sistemas encarnados. El paper reconoce que esto puede atraer críticas (el problema de alineación es más difícil para sistemas encarnados) y posiciona el framework como fundacional y extensible a sistemas físicos vía una "capa de interfaz física blindada".

Para la mayoría de equipos de ingeniería que envían IA en 2026, este es el alcance relevante de todos modos. Los agentes que estás desplegando — para atención al cliente, generación de código, análisis financiero, procesamiento de documentos — son sistemas de trabajo de información. El problema de alineación en este alcance es el prácticamente urgente. La alineación de IA encarnada todavía es una preocupación en fase de investigación para casi todo el mundo.

Qué Deben Sacar los Ingenieros de Esto

Tres conclusiones prácticas para equipos no profundamente implicados en la investigación de alineación.

1. Trata la alineación como propiedad del sistema desplegado, no del modelo

La idea más accionable es el propio encuadre. Cuando evalúes un despliegue de IA por alineación, no evalúes "¿está alineado el modelo?" Evalúa "¿está el sistema desplegado, incluyendo su capa de restricción y monitor, produciendo trayectorias en la región aceptable?"

Esto cambia cómo arquitectas los despliegues de IA. La capa de restricción, el monitor y los controles de superficie de acción son parte del sistema de seguridad. El modelo es un componente de un sistema más grande, no la unidad de análisis de seguridad.

2. Monitorea trayectorias, no solo salidas

Los outputs progresivos son la versión formal del streaming del estado del agente. Si tu despliegue de IA solo registra respuestas finales, te pierdes la mayoría de la señal relevante para la seguridad. Registra los estados intermedios. Monitorea drift distribucional sobre esos estados intermedios. Construye alertas sobre la trayectoria, no solo sobre el resultado.

Este es el mismo patrón que la observabilidad en sistemas distribuidos: registra spans, no solo request/response. La razón es la misma: los modos de fallo que te importan son a mitad de trayectoria, no solo en la frontera.

3. Construye la capa de restricción para que sea inspeccionable, modificable y auditable

La capa de restricción — sea la forma que tome en tu sistema, ya sean políticas OPA, filtros en runtime, funciones de gating — es el componente portante para la alineación. Trátala como tal:

  • Inspeccionable: las reglas deberían ser legibles por humanos, no codificadas solo en pesos del modelo.
  • Modificable: las reglas deberían poder actualizarse sin reentrenar.
  • Auditable: los cambios a las reglas deberían estar versionados, firmados y revisables.

Si tu "alineación" vive en el entrenamiento del modelo, ninguna de esas propiedades es cierta. Si vive en la capa de restricción, las tres son alcanzables.

Configuraciones Multi-Agente

El framework se extiende a configuraciones multi-agente usando la existencia de equilibrio en espacios localmente convexos. Esto importa porque la mayoría de despliegues agénticos en producción en 2026 evolucionan hacia el multi-agente: múltiples agentes especializados colaborando en una tarea. La alineación multi-agente no es solo la alineación por agente sumada — comportamientos emergentes a nivel del sistema pueden estar desalineados incluso cuando cada agente individual está alineado.

El encuadre matemático maneja este caso naturalmente. La condición de pertenencia es sobre la distribución conjunta de trayectorias, no las distribuciones por agente. Prácticamente, esto significa que el monitoreo multi-agente debe ser a nivel de sistema, con trazas cruzadas correlacionadas y analizadas juntas.

Si estás desplegando sistemas multi-agente y tu monitoreo es por agente, te pierdes los modos de fallo emergentes.

Por Qué Este Enfoque Es Útil Aunque Te Saltes la Matemática

No necesitas seguir las pruebas para sacar la lección. La lección es:

La alineación-por-construcción es más robusta que la alineación-por-entrenamiento, porque no depende de que el entrenamiento vaya bien.

Esto es consistente con cómo los equipos de ingeniería manejan otros sistemas críticos para la seguridad. No confiamos en que los pilotos no cometan errores; tenemos restricciones (autopilotos, avisos de terreno, evitación de colisión de tráfico). No confiamos en que los conductores no se estrellen; tenemos restricciones (mantenimiento de carril, frenada de emergencia automática). No confiamos en que las bases de datos nunca corrompan datos; tenemos restricciones (transacciones, réplicas, backups). Confiamos en el operador dentro de restricciones conocidas; no confiamos en el operador sin restricciones.

La misma lógica se aplica a la IA. Entrena el modelo bien. Luego limita su superficie de acción para que incluso cuando el entrenamiento es imperfecto, el sistema desplegado todavía sea seguro. La capa de restricción es el sistema de seguridad; el modelo es la optimización dentro de ella.

Esto no es un resultado solo de investigación. Los equipos que envían IA agéntica seria en 2026 están convergiendo en este patrón desde muchas direcciones: arquitecturas de gobernanza verificable, aseguramiento de grado financiero, watchdogs en runtime. El framework matemático le da al patrón una base formal, lo que lo hace más difícil de mal-implementar y más fácil de auditar.


Fuente: Fradelos, G. A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Ginebra, 14 de enero de 2026). SSRN 6307060.

¿Construyendo sistemas de IA donde la alineación importa en producción y preferirías tenerla por construcción en lugar de por esperanza? Habla con un CTO sobre desplegar capacidad de ingeniería nearshore con la disciplina para construir la capa de restricción correctamente.

¿Listo para construir tu equipo de ingeniería?

Habla con un partner técnico y despliega ingenieros validados por CTOs en 72 horas.