Reptes

Alinear la IA per construcció: un marc matemàtic basat en restriccions, no en l'entrenament

Per Marc Molas·6 d’abril del 2026·11 min de lectura

Els últims anys, l'enfocament per defecte de l'alineació d'IA ha girat al voltant de l'entrenament: afinar el model amb el senyal de recompensa adequat, entrenar-lo perquè rebutgi certes accions, entrenar-lo perquè respongui dins d'una distribució acceptable. Aquest camí ha donat progressos reals, però té una vulnerabilitat molt concreta: l'alineació passa a dependre de les dades d'entrenament i de la funció de recompensa, i totes dues poden ser errònies, esbiaixades o estratègicament desalineades de maneres que no es veuen fins que el sistema és en producció.

El paper recent A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Fradelos, gener de 2026) adopta una posició diferent: desacoblar explícitament l'alineació de la qualitat de l'entrenament. El model base pot ser fluix, esbiaixat o fins i tot estratègicament desalineat, i el sistema desplegat continua sent alineat per construcció — perquè l'alineació no l'imposa l'entrenament del model, sinó una capa de restriccions externa i un monitor.

La matemàtica no és trivial. Però jo aquests papers els llegeixo des de la cadira de qui construeix, no de qui investiga, i les implicacions d'enginyeria s'aguanten encara que no segueixis la part formal: les decisions de disseny es tradueixen en decisions pràctiques que qualsevol equip que posa IA en producció ha de prendre tard o d'hora.

La jugada central: l'alineació com a condició de pertinença topològica

La idea de fons, sense formalisme: tractar el sistema d'IA desplegat com una font que indueix una distribució de probabilitat sobre trajectòries infinites d'acció i observació. L'alineació es defineix llavors així: la distribució del sistema desplegat pertany a un conjunt concret de distribucions amb bones propietats — diguem-ne el conjunt segur.

És una condició topològica. O la distribució de trajectòries del sistema és dins del conjunt segur, o no ho és. El conjunt segur queda definit per restriccions de seguretat, legalitat i corregibilitat, codificades com a funcions escalars sobre distribucions de probabilitat.

Aquest plantejament té tres conseqüències útils:

1. L'alineació és una propietat del sistema desplegat, no del model

Un mateix model pot donar lloc a un sistema desplegat alineat o desalineat, segons la capa de restriccions que l'envolta. Si la capa imposa la condició de pertinença, el sistema desplegat és alineat, tant se val com s'hagi entrenat el model. Si no la imposa, el sistema no és alineat, per bo que sigui el model.

És la mateixa intuïció que hi ha darrere de les arquitectures de governança verificable: no confiïs en el model; restringeix-li la superfície d'acció. El plantejament matemàtic fa que la restricció sigui precisa.

2. El desacoblament de la qualitat de l'entrenament és explícit

El marc parteix del supòsit que el model base pot ser fluix, esbiaixat o estratègicament desalineat, i es pregunta: en quines condicions podem produir, tot i això, un sistema desplegat alineat?

La resposta: quan la capa de restriccions està ben dissenyada i el monitor és suficient. Això és molt més robust que l'alineació via entrenament, perquè no exigeix confiar en el procés d'entrenament. Els problemes de qualitat de l'entrenament passen a ser un problema de qualitat (el model produeix sortides menys útils), no de seguretat.

3. L'alineació esdevé verificable

Si l'alineació és pertànyer a un conjunt, verificar l'alineació és comprovar la pertinença. El marc dona condicions explícites sota les quals aquesta pertinença es pot comprovar amb logs finits (amb cotes conformes/PAC), i això és el que fa que la matemàtica sigui operacionalitzable.

Sortides progressives: treure el no-determinisme de l'ombra

La segona jugada central són les sortides progressives (progressive outputs): sortides parcials alineades amb una filtració, que fan que el no-determinisme del sistema sigui visible per al monitoratge en lloc de quedar amagat.

La motivació és operativa. Els sistemes d'IA moderns són estocàstics: amb la mateixa entrada produeixen sortides diferents segons el mostreig. Un sistema que només emet la sortida final, després d'una computació interna llarga, amaga aquesta estocasticitat. Les violacions d'alineació poden ser transitòries i no aparèixer a la sortida final tot i ser presents a la trajectòria.

Les sortides progressives ho canvien: el sistema emet el seu estat al llarg d'una filtració — una seqüència de sortides parcials que creix amb el temps. Cada sortida parcial és una quantitat observable que es pot monitorar. Les violacions es manifesten com a deriva distribucional mesurable a l'espai de trajectòries.

Traduït per a un equip d'enginyeria: no monitoris només la resposta final. Monitora els estats intermedis de l'agent — els seus tool calls, la seva traça de raonament, les seves sortides parcials — a mesura que es van produint. La detecció de deriva treballa sobre aquesta trajectòria, no només sobre els resultats finals. És la versió formal del que alguns equips d'IA agèntica ja fan informalment des de fa temps: emetre el raonament de l'agent en streaming, monitorar cada pas i alertar quan els patrons divergeixen de la distribució segura.

Per què aquí importa la topologia de Wasserstein

El marc fa servir topologies febles/de Wasserstein sobre l'espai de distribucions de probabilitat. La versió no matemàtica: és la manera correcta de mesurar fins a quin punt dues distribucions són «properes» quan el que t'importa són les conseqüències de les accions, no les seves probabilitats.

La divergència KL — la mesura més coneguda — és sensible a les probabilitats concretes d'accions concretes. Un sistema gairebé sempre segur però amb una probabilitat minúscula d'acció catastròfica pot tenir una divergència KL baixa respecte d'un sistema totalment segur, amb conseqüències al món real radicalment diferents. La distància de Wasserstein té en compte la magnitud de la diferència entre accions, no només les probabilitats.

Per al monitoratge pràctic de seguretat això compta, perquè vols una mètrica que capturi «aquesta distribució comença a fer accions perilloses de tant en tant», no només «aquesta distribució es veu una mica diferent de la segura». La distància de Wasserstein s'acosta més al que de debò vols mesurar.

És la mena de detall que no importa fins que un dia importa. La major part de la detecció de deriva que he vist en producció fa servir mètriques més simples, que deixen escapar el cas rar però catastròfic.

La restricció d'abast que val la pena explicitar

El marc restringeix deliberadament l'abast als sistemes de treball amb informació — anàlisi, raonament, suport a la decisió, fluxos d'oficina — sense actuació física directa. Robots, vehicles autònoms i IA encarnada en queden fora.

És una decisió d'enginyeria seriosa, no una escapatòria. Excloure els sistemes físics fa el marc viable i auditable: les trajectòries de treball amb informació es poden capturar, registrar i verificar d'una manera que en sistemes encarnats és molt més difícil. El paper admet que això pot atreure crítiques (el problema d'alineació és més dur justament en sistemes encarnats) i presenta el marc com un fonament extensible als sistemes físics mitjançant una «capa d'interfície física blindada».

Per a la majoria d'equips que posen IA en producció el 2026, aquest és l'abast rellevant de totes maneres. Els agents que estàs desplegant — atenció al client, generació de codi, anàlisi financera, processament de documents — són sistemes de treball amb informació. En aquest àmbit, el problema d'alineació és el que pressiona a la pràctica. L'alineació d'IA encarnada encara és, per a gairebé tothom, una qüestió de recerca.

Què n'haurien de treure els enginyers

Tres conclusions pràctiques per a equips que no estan ficats en recerca d'alineació.

1. Tracta l'alineació com una propietat del sistema desplegat, no del model

La idea més aprofitable és el plantejament mateix. Quan avaluïs l'alineació d'un desplegament d'IA, no et preguntis «el model està alineat?». Pregunta't «el sistema desplegat — amb la seva capa de restriccions i el seu monitor — produeix trajectòries dins la regió acceptable?».

Això canvia la manera de dissenyar l'arquitectura dels desplegaments d'IA. La capa de restriccions, el monitor i els controls de la superfície d'acció formen part del sistema de seguretat. El model és un component d'un sistema més gran, no la unitat d'anàlisi de seguretat.

2. Monitora trajectòries, no només sortides

Les sortides progressives són la versió formal de l'streaming de l'estat de l'agent. Si el teu desplegament d'IA només registra respostes finals, et perds la major part del senyal rellevant per a la seguretat. Registra els estats intermedis. Monitora-hi la deriva distribucional. Construeix les alertes sobre la trajectòria, no només sobre el resultat.

És el mateix patró que l'observabilitat en sistemes distribuïts: registra spans, no només request/response. I la raó és la mateixa: els modes de fallada que t'importen passen a mitja trajectòria, no només a la frontera.

3. Fes que la capa de restriccions sigui inspeccionable, modificable i auditable

La capa de restriccions — la forma que prengui al teu sistema: polítiques OPA, filtres en temps d'execució, funcions de gating — és la peça que aguanta tot el pes de l'alineació. Tracta-la en conseqüència:

Inspeccionable: les regles han de ser llegibles per una persona, no quedar codificades només en pesos del model.
Modificable: les regles s'han de poder actualitzar sense reentrenar.
Auditable: els canvis a les regles han d'estar versionats, signats i ser revisables.

Si la teva «alineació» viu a l'entrenament del model, no es compleix cap d'aquestes propietats. Si viu a la capa de restriccions, les tres són assolibles.

L'alineació multiagent és una propietat del sistema, no una suma

El marc s'estén a escenaris multiagent fent servir l'existència d'equilibris en espais localment convexos. Això importa perquè la majoria de desplegaments agèntics en producció que veig estan evolucionant cap al multiagent: diversos agents especialitzats col·laborant en una tasca. I l'alineació multiagent no és la suma de les alineacions individuals: a nivell de sistema poden emergir comportaments desalineats encara que cada agent, per separat, estigui alineat.

El plantejament matemàtic cobreix aquest cas amb naturalitat: la condició de pertinença és sobre la distribució conjunta de trajectòries, no sobre les distribucions per agent. A la pràctica, vol dir que el monitoratge multiagent ha de ser a nivell de sistema, amb les traces dels diferents agents correlacionades i analitzades juntes.

Si despleges sistemes multiagent i el teu monitoratge és per agent, els modes de fallada emergents se t'escapen.

Per què aquest enfocament és útil encara que et saltis la matemàtica

No cal seguir les demostracions per quedar-se amb la lliçó. La lliçó és aquesta:

L'alineació per construcció és més robusta que l'alineació per entrenament, perquè no depèn que l'entrenament surti bé.

És coherent amb com els equips d'enginyeria tracten altres sistemes crítics. No confiem que els pilots no s'equivoquin; tenim restriccions (pilot automàtic, avisos de terreny, sistemes anticol·lisió). No confiem que els conductors no xoquin; tenim restriccions (manteniment de carril, frenada d'emergència automàtica). No confiem que les bases de dades no corrompin mai les dades; tenim restriccions (transaccions, rèpliques, còpies de seguretat). Confiem en l'operador dins d'unes restriccions conegudes; no hi confiem sense restriccions.

Amb la IA, la mateixa lògica. Entrena bé el model. I després restringeix-li la superfície d'acció, perquè fins i tot amb un entrenament imperfecte el sistema desplegat continuï sent segur. La capa de restriccions és el sistema de seguretat; el model és l'optimització que hi corre a dins.

Això no és un resultat només de laboratori. Els equips que el 2026 posen IA agèntica seriosa en producció hi estan convergint des de molts angles: arquitectures de governança verificable, assegurament de grau financer, watchdogs en temps d'execució. El marc matemàtic dona al patró un fonament formal — i això el fa més difícil d'implementar malament i més fàcil d'auditar.

Font: Fradelos, G. A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Ginebra, 14 de gener de 2026). SSRN 6307060.

Construeixes sistemes d'IA on l'alineació importa en producció, i preferiries tenir-la per construcció i no fiar-la a l'esperança? Parla amb un CTO sobre com desplegar capacitat d'enginyeria nearshore amb la disciplina necessària per construir bé la capa de restriccions.