Retos

Alinear la IA por Construcción: Un Marco Matemático que Se Apoya en Restricciones, No en el Entrenamiento

Por Marc Molas·6 de abril de 2026·11 min de lectura

El enfoque dominante en alineación de IA durante los últimos años ha girado en torno al entrenamiento: afina el modelo con la señal de recompensa adecuada, entrénalo para rechazar ciertas acciones, entrénalo para producir respuestas dentro de una distribución aceptable. Este enfoque ha dado progreso real, pero tiene una vulnerabilidad concreta: la alineación pasa a ser una propiedad de los datos de entrenamiento y de la función de recompensa, y ambos pueden ser erróneos, estar sesgados o estar estratégicamente desalineados de formas que no se ven hasta el despliegue.

El paper reciente A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Fradelos, enero de 2026) adopta una postura distinta: desacoplar explícitamente la alineación de la calidad del entrenamiento. El modelo base puede ser débil, estar sesgado o incluso estratégicamente desalineado, y aun así el sistema desplegado está alineado por construcción — porque la alineación la imponen una capa de restricciones externa y un monitor, no el entrenamiento del modelo.

La matemática no es trivial. Pero yo leo este tipo de papers desde la silla de quien construye, no de quien investiga, y las implicaciones de ingeniería se sostienen aunque no sigas la matemática: las decisiones de diseño se traducen en decisiones prácticas que cualquier equipo que pone sistemas de IA en producción tiene que tomar.

La Jugada Central: la Alineación como Condición Topológica de Pertenencia

La idea central, despojada de formalismo: tratar el sistema de IA desplegado como algo que induce una distribución de probabilidad sobre trayectorias infinitas de acción–observación. La alineación se define entonces como que la distribución del sistema desplegado pertenezca a un conjunto concreto y bien comportado de distribuciones — llamémoslo el conjunto seguro.

Es una condición topológica: la distribución de trayectorias del sistema está en el conjunto seguro o no lo está. El conjunto seguro se define mediante restricciones de seguridad, legalidad y corregibilidad codificadas como funciones escalares sobre distribuciones de probabilidad.

Este encuadre tiene tres consecuencias útiles:

1. La alineación es una propiedad del sistema desplegado, no del modelo

El mismo modelo puede dar lugar a un sistema desplegado alineado o desalineado, según la capa de restricciones que lo rodee. Si la capa impone la condición de pertenencia, el sistema desplegado está alineado, da igual cómo se haya entrenado el modelo. Si no la impone, el sistema desplegado no está alineado, da igual lo bueno que sea el modelo.

Es la misma intuición que hay detrás de las arquitecturas de gobernanza verificable: no confíes en el modelo; restringe la superficie de acción. El encuadre matemático vuelve precisa esa restricción.

2. El desacoplamiento de la calidad del entrenamiento es explícito

El marco parte del supuesto de que el modelo base puede ser débil, estar sesgado o estratégicamente desalineado. Y a partir de ahí pregunta: ¿en qué condiciones podemos, aun así, producir un sistema desplegado alineado?

La respuesta: cuando la capa de restricciones está bien diseñada y el monitor es suficiente. Esto es mucho más robusto que alinear vía entrenamiento, porque no exige confiar en el proceso de entrenamiento. Los problemas de calidad del entrenamiento pasan a ser una cuestión de calidad (el modelo produce salidas menos útiles), no una cuestión de seguridad.

3. La alineación se vuelve verificable

Si la alineación es pertenencia a un conjunto, verificar la alineación es comprobar esa pertenencia. El marco da condiciones explícitas bajo las cuales la pertenencia puede comprobarse con logs finitos (usando cotas conformales/PAC), lo que hace que la matemática sea operacionalizable.

Salidas Progresivas: Sacar a la Luz el No Determinismo

La segunda jugada central son las salidas progresivas: salidas parciales alineadas con una filtración, que hacen que el no determinismo del sistema sea visible para la monitorización en lugar de quedar oculto.

La motivación es operativa. Los sistemas de IA modernos son estocásticos: ante la misma entrada producen salidas distintas según el muestreo. Un sistema que solo emite una salida final tras un cómputo interno extenso esconde esa estocasticidad. Las violaciones de alineación pueden ser transitorias y no aparecer en la salida final aunque estén presentes en la trayectoria.

Las salidas progresivas cambian esto: el sistema emite su estado a lo largo de una filtración — una secuencia de salidas parciales que crece con el tiempo. Cada salida parcial es una cantidad observable que se puede monitorizar. Las violaciones se manifiestan como deriva distribucional medible en el espacio de trayectorias.

Traducido para equipos de ingeniería: no monitorices solo la respuesta final. Monitoriza los estados intermedios del agente — sus llamadas a herramientas, su traza de razonamiento, sus salidas parciales — a medida que se producen. La detección de deriva opera sobre esa trayectoria, no solo sobre los resultados finales. Es la versión formal de lo que algunos equipos de IA agéntica llevan tiempo haciendo de manera informal: emitir el razonamiento del agente en streaming, monitorizar cada paso y alertar sobre patrones que se desvían de la distribución segura.

Por Qué Aquí Importa la Topología de Wasserstein

El marco usa topologías débiles/de Wasserstein sobre el espacio de distribuciones de probabilidad. La versión no matemática: es la forma correcta de medir lo «cerca» que están dos distribuciones cuando lo que te importa son las consecuencias de las acciones, no sus probabilidades.

La divergencia KL — la medida más familiar — es sensible a las probabilidades concretas de acciones concretas. Un sistema casi siempre seguro, pero con una probabilidad minúscula de cometer una acción catastrófica, puede tener una divergencia KL baja respecto a un sistema totalmente seguro y, aun así, consecuencias reales muy distintas. La distancia de Wasserstein tiene en cuenta la magnitud de la diferencia entre acciones, no solo sus probabilidades.

Para la monitorización práctica de seguridad esto importa porque quieres una métrica que capture «esta distribución empieza a tomar acciones peligrosas de vez en cuando», no solo «esta distribución se parece un poco menos a la segura». La distancia de Wasserstein se acerca más a lo que de verdad quieres medir.

Es el tipo de detalle que no importa hasta que importa. La mayor parte de la detección de deriva que he visto en producción usa métricas más simples que se pierden el caso raro pero catastrófico.

La Restricción de Alcance que Conviene Nombrar

El marco restringe deliberadamente su alcance a los sistemas de trabajo de información — análisis, razonamiento, soporte a la decisión, flujos de oficina — sin actuación física directa. Robots, vehículos autónomos e IA encarnada quedan fuera.

Es una decisión de ingeniería seria, no una forma de escurrir el bulto. Excluir los sistemas físicos hace que el marco sea factible y auditable: las trayectorias de trabajo de información se pueden capturar, registrar y verificar de una forma que resulta mucho más difícil en sistemas encarnados. El paper reconoce que esto puede atraer críticas (el problema de la alineación es más duro precisamente en los sistemas encarnados) y posiciona el marco como fundacional y extensible a sistemas físicos mediante una «capa de interfaz física blindada».

Para la mayoría de los equipos de ingeniería que ponen IA en producción en 2026, este es de todos modos el alcance relevante. Los agentes que estás desplegando — atención al cliente, generación de código, análisis financiero, procesamiento de documentos — son sistemas de trabajo de información. El problema de alineación que aprieta en la práctica es el de este alcance. La alineación de la IA encarnada sigue siendo, para casi todo el mundo, una cuestión en fase de investigación.

Qué Deberían Llevarse los Ingenieros de Todo Esto

Tres conclusiones prácticas para equipos que no están metidos a fondo en la investigación de alineación.

1. Trata la alineación como una propiedad del sistema desplegado, no del modelo

La idea más accionable es el propio encuadre. Cuando evalúes la alineación de un despliegue de IA, no te preguntes «¿está alineado el modelo?». Pregúntate «¿está el sistema desplegado — capa de restricciones y monitor incluidos — produciendo trayectorias dentro de la región aceptable?».

Esto cambia cómo se diseña la arquitectura de los despliegues de IA. La capa de restricciones, el monitor y los controles sobre la superficie de acción forman parte del sistema de seguridad. El modelo es un componente de un sistema mayor, no la unidad del análisis de seguridad.

2. Monitoriza trayectorias, no solo salidas

Las salidas progresivas son la versión formal del streaming del estado del agente. Si tu despliegue de IA solo registra respuestas finales, te estás perdiendo la mayor parte de la señal relevante para la seguridad. Registra los estados intermedios. Monitoriza la deriva distribucional sobre esos estados intermedios. Construye las alertas sobre la trayectoria, no solo sobre el resultado.

Es el mismo patrón que la observabilidad en sistemas distribuidos: registrar spans, no solo petición/respuesta. Y por la misma razón: los modos de fallo que te importan ocurren a mitad de trayectoria, no solo en la frontera.

3. Construye la capa de restricciones para que sea inspeccionable, modificable y auditable

La capa de restricciones — sea cual sea la forma que adopte en tu sistema: políticas OPA, filtros en runtime, funciones de gating — es el componente que sostiene la alineación. Trátala en consecuencia:

Inspeccionable: las reglas deben poder leerlas humanos, no estar codificadas solo en los pesos del modelo.
Modificable: las reglas deben poder actualizarse sin reentrenar.
Auditable: los cambios en las reglas deben estar versionados, firmados y ser revisables.

Si tu «alineación» vive en el entrenamiento del modelo, ninguna de estas propiedades se cumple. Si vive en la capa de restricciones, las tres son alcanzables.

La Alineación Multi-Agente Es una Propiedad del Sistema, No una Suma

El marco se extiende a escenarios multi-agente usando la existencia de equilibrios en espacios localmente convexos. Esto importa porque la mayoría de los despliegues agénticos en producción que veo están evolucionando hacia lo multi-agente: varios agentes especializados colaborando en una tarea. La alineación multi-agente no es la suma de las alineaciones de cada agente: a nivel de sistema pueden aparecer comportamientos emergentes desalineados incluso cuando cada agente individual está alineado.

El encuadre matemático cubre este caso con naturalidad. La condición de pertenencia se impone sobre la distribución conjunta de trayectorias, no sobre las distribuciones por agente. En la práctica, esto significa que la monitorización multi-agente tiene que hacerse a nivel de sistema, con las trazas de los distintos agentes correlacionadas y analizadas en conjunto.

Si despliegas sistemas multi-agente y tu monitorización es por agente, te estás perdiendo los modos de fallo emergentes.

Por Qué Este Enfoque Es Útil Aunque Te Saltes la Matemática

No hace falta seguir las demostraciones para quedarse con la lección. La lección es esta:

La alineación por construcción es más robusta que la alineación por entrenamiento, porque no depende de que el entrenamiento salga bien.

Es coherente con cómo los equipos de ingeniería tratan otros sistemas críticos para la seguridad. No confiamos en que los pilotos no se equivoquen; tenemos restricciones (pilotos automáticos, avisos de proximidad al terreno, sistemas anticolisión). No confiamos en que los conductores no se estrellen; tenemos restricciones (mantenimiento de carril, frenada automática de emergencia). No confiamos en que las bases de datos nunca corrompan datos; tenemos restricciones (transacciones, réplicas, copias de seguridad). Confiamos en el operador dentro de restricciones conocidas; no confiamos en el operador sin restricciones.

La misma lógica aplica a la IA. Entrena bien el modelo. Y después restringe su superficie de acción para que, incluso con un entrenamiento imperfecto, el sistema desplegado siga siendo seguro. La capa de restricciones es el sistema de seguridad; el modelo es la optimización que vive dentro de ella.

Esto no es un resultado que se quede en la investigación. Los equipos que ponen IA agéntica seria en producción en 2026 están convergiendo en este patrón desde muchas direcciones: arquitecturas de gobernanza verificable, garantías de grado financiero, watchdogs en runtime. El marco matemático le da al patrón una base formal, lo que lo hace más difícil de implementar mal y más fácil de auditar.

Fuente: Fradelos, G. A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Ginebra, 14 de enero de 2026). SSRN 6307060.

¿Estás construyendo sistemas de IA donde la alineación importa en producción y prefieres tenerla por construcción en vez de fiarla a la esperanza? Habla con un CTO sobre desplegar capacidad de ingeniería nearshore con la disciplina necesaria para construir bien la capa de restricciones.