← Tornar a tots els articles
Reptes

Alinear la IA per Construcció: Un Framework Matemàtic Construït Sobre Restriccions, No Entrenament

Per Marc Molas·6 d’abril del 2026·11 min de lectura

L'enfocament per defecte de l'alineació d'IA durant els darrers anys ha estat centrat en l'entrenament: ajusta fina el model amb el senyal de recompensa correcte, entrena'l per rebutjar certes accions, entrena'l per produir respostes dins d'una distribució acceptable. Aquest enfocament ha produït progrés real, però és vulnerable d'una manera específica: l'alineació esdevé una propietat de les dades d'entrenament i la funció de recompensa, ambdues poden ser errònies, esbiaixades o estratègicament desalineades de maneres que no són visibles fins al desplegament.

El paper recent A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Fradelos, gener 2026) pren una postura diferent: desacobla explícitament l'alineació de la qualitat de l'entrenament. El model base pot ser feble, esbiaixat o fins i tot estratègicament desalineat, i el sistema desplegat encara és alineat per construcció — perquè l'alineació l'imposa una capa de restricció externa i un monitor, no l'entrenament del model.

La matemàtica no és trivial. Les implicacions d'enginyeria són útils encara que no segueixis la matemàtica, perquè les decisions de disseny es mapegen a decisions pràctiques que qualsevol equip que envia sistemes d'IA ha de prendre.

El Moviment Central: Alineació com a Condició de Pertinença Topològica

La idea central, despullada de formalisme: tracta el sistema d'IA desplegat com a induint una distribució de probabilitat sobre trajectòries infinites d'acció-observació. L'alineació es defineix llavors com la pertinença de la distribució del sistema desplegat a un conjunt específic i ben comportat de distribucions — anomena'l el conjunt segur.

Aquesta és una condició topològica. O bé la distribució de trajectòries del sistema està al conjunt segur, o no hi és. El conjunt segur es defineix per restriccions de seguretat, legalitat i corrigibilitat codificades com a funcions escalars sobre distribucions de probabilitat.

Aquest enquadrament té tres conseqüències útils:

1. L'alineació és una propietat del sistema desplegat, no del model

El mateix model pot produir un sistema desplegat alineat o desalineat, depenent de la capa de restricció al seu voltant. Si la capa imposa la condició de pertinença, el sistema desplegat és alineat, sense importar com es va entrenar el model. Si no la imposa, el sistema desplegat no és alineat, sense importar quan bo és el model.

Aquesta és la mateixa idea darrere de les arquitectures de governança verificable: no confiïs en el model, limita la superfície d'acció. L'enquadrament matemàtic fa la restricció precisa.

2. El desacoblament de la qualitat d'entrenament és explícit

El framework comença des de l'assumpció que el model base pot ser feble, esbiaixat o estratègicament desalineat. Llavors pregunta: sota quines condicions encara podem produir un sistema desplegat alineat?

La resposta és: quan la capa de restricció està ben dissenyada i el monitor és suficient. Això és molt més robust que l'alineació-via-entrenament, perquè no requereix confiança en el procés d'entrenament. Els problemes de qualitat d'entrenament esdevenen una preocupació de qualitat (el model produeix sortida menys útil) en lloc d'una preocupació de seguretat.

3. L'alineació esdevé verificable

Si l'alineació és pertinença a un conjunt, llavors verificar l'alineació és provar la pertinença. El framework proporciona condicions explícites sota les quals la pertinença pot provar-se amb logs finits (usant cotes conformals/PAC), cosa que fa la matemàtica operacionalitzable.

Outputs Progressius: Fent que el No-Determinisme No Estigui Amagat

El segon moviment central són els outputs progressius: outputs parcials alineats amb la filtració que fan visible el no-determinisme del sistema al monitoratge en lloc d'amagar-lo.

La motivació és operativa. Els sistemes d'IA moderns són estocàstics — produeixen sortides diferents amb la mateixa entrada depenent del sampling. Un sistema que emet una sortida final només després d'una computació interna extensa amaga aquesta estocasticitat. Les violacions d'alineació poden ser transitòries i no aparèixer a la sortida final fins i tot quan són presents a la trajectòria.

Els outputs progressius canvien això emetent l'estat del sistema al llarg d'una filtració — una seqüència de sortides parcials que creix amb el temps. Cada sortida parcial és una quantitat observable que pot ser monitorada. Les violacions apareixen com a drift distribucional mesurable a l'espai de trajectòries.

Traduït per a equips d'enginyeria: no monitoris només la resposta final. Monitora els estats intermedis de l'agent — els seus tool calls, el seu reasoning trace, les seves sortides parcials — a mesura que es produeixen. La detecció de drift treballa sobre aquesta trajectòria, no només sobre els resultats finals. Aquesta és la versió formal del que alguns equips d'IA agentic han estat fent informalment fa un temps: streamejar el raonament de l'agent, monitorar cada pas, alertar sobre patrons que divergeixen de la distribució segura.

Per Què Importa la Topologia de Wasserstein Aquí

El framework usa topologies dèbils/Wasserstein a l'espai de distribucions de probabilitat. La versió no matemàtica: aquesta és la manera correcta de mesurar com de "properes" són dues distribucions quan et preocupes per les conseqüències d'acció en lloc de les probabilitats d'acció.

La divergència KL — la mesura més familiar — és sensible a les probabilitats específiques d'accions específiques. Un sistema que és quasi sempre segur però té una probabilitat petita d'acció catastròfica pot tenir KL baixa des d'un sistema completament segur però conseqüències al món real molt diferents. La distància de Wasserstein té en compte la magnitud de la diferència entre accions, no només les seves probabilitats.

Per al monitoratge pràctic de seguretat, això importa perquè vols una mètrica que capti "aquesta distribució comença a prendre accions perilloses ocasionalment", no només "aquesta distribució sembla lleugerament diferent de la segura". La distància de Wasserstein està més propera al que realment vols mesurar.

Aquest és el tipus de detall que no importa fins que sí. La majoria de detecció de drift en producció el 2026 usa mètriques més simples que perden el cas rar-però-catastròfic.

La Restricció d'Abast Que Val la Pena Anomenar

El framework restringeix deliberadament l'abast als sistemes de treball d'informació — anàlisi, raonament, suport a decisions, fluxos d'oficina — sense actuació física directa. Robots, vehicles autònoms, IA encarnada queden fora d'abast.

Aquesta és una elecció d'enginyeria seriosa, no una pirueta. Excloure els sistemes físics fa el framework factible i auditable: pots capturar, registrar i verificar trajectòries de treball d'informació d'una manera molt més difícil per a sistemes encarnats. El paper reconeix que això pot atraure crítiques (el problema d'alineació és més difícil per a sistemes encarnats) i posiciona el framework com a fonamental i extensible a sistemes físics via una "capa d'interfície física blindada".

Per a la majoria d'equips d'enginyeria que envien IA el 2026, aquest és l'abast rellevant de tota manera. Els agents que estàs desplegant — per a atenció al client, generació de codi, anàlisi financera, processament de documents — són sistemes de treball d'informació. El problema d'alineació en aquest abast és el pràcticament urgent. L'alineació d'IA encarnada encara és una preocupació en fase de recerca per a quasi tothom.

Què Han De Treure els Enginyers d'Això

Tres conclusions pràctiques per a equips no profundament implicats en la recerca d'alineació.

1. Tracta l'alineació com a propietat del sistema desplegat, no del model

La idea més accionable és el propi enquadrament. Quan avaluïs un desplegament d'IA per a alineació, no avaluïs "està alineat el model?" Avalua "està el sistema desplegat, incloent la seva capa de restricció i monitor, produint trajectòries a la regió acceptable?"

Això canvia com arquitectes els desplegaments d'IA. La capa de restricció, el monitor i els controls de superfície d'acció són part del sistema de seguretat. El model és un component d'un sistema més gran, no la unitat d'anàlisi de seguretat.

2. Monitora trajectòries, no només sortides

Els outputs progressius són la versió formal del streaming de l'estat de l'agent. Si el teu desplegament d'IA només registra respostes finals, et perds la majoria del senyal rellevant per a la seguretat. Registra els estats intermedis. Monitora drift distribucional sobre aquests estats intermedis. Construeix alertes sobre la trajectòria, no només sobre el resultat.

Aquest és el mateix patró que l'observabilitat en sistemes distribuïts: registra spans, no només request/response. La raó és la mateixa: els modes de fallada que t'importen són a meitat de trajectòria, no només a la frontera.

3. Construeix la capa de restricció per ser inspeccionable, modificable i auditable

La capa de restricció — sigui la forma que prengui al teu sistema, ja siguin polítiques OPA, filtres en runtime, funcions de gating — és el component portant per a l'alineació. Tracta-la com a tal:

  • Inspeccionable: les regles haurien de ser llegibles per humans, no codificades només en pesos del model.
  • Modificable: les regles haurien de poder actualitzar-se sense reentrenar.
  • Auditable: els canvis a les regles haurien d'estar versionats, signats i revisables.

Si la teva "alineació" viu a l'entrenament del model, cap d'aquestes propietats és certa. Si viu a la capa de restricció, totes tres són assolibles.

Configuracions Multi-Agent

El framework s'estén a configuracions multi-agent usant l'existència d'equilibri en espais localment convexos. Això importa perquè la majoria de desplegaments agentic en producció el 2026 evolucionen cap al multi-agent: múltiples agents especialitzats col·laborant en una tasca. L'alineació multi-agent no és només l'alineació per agent sumada — comportaments emergents al nivell del sistema poden ser desalineats fins i tot quan cada agent individual està alineat.

L'enquadrament matemàtic gestiona aquest cas naturalment. La condició de pertinença és sobre la distribució conjunta de trajectòries, no les distribucions per agent. Pràcticament, això significa que el monitoratge multi-agent ha de ser a nivell de sistema, amb traces creuats correlacionats i analitzats junts.

Si estàs desplegant sistemes multi-agent i el teu monitoratge és per agent, et perds els modes de fallada emergents.

Per Què Aquest Enfocament És Útil Encara que Et Saltis la Matemàtica

No necessites seguir les proves per treure'n la lliçó. La lliçó és:

L'alineació-per-construcció és més robusta que l'alineació-per-entrenament, perquè no depèn que l'entrenament vagi bé.

Això és consistent amb com els equips d'enginyeria gestionen altres sistemes crítics per a la seguretat. No confiem que els pilots no cometin errors; tenim restriccions (autopilots, avisos de terreny, evitació de col·lisió de trànsit). No confiem que els conductors no s'estavellin; tenim restriccions (manteniment de carril, frenada d'emergència automàtica). No confiem que les bases de dades no corrompin mai dades; tenim restriccions (transaccions, rèpliques, backups). Confiem en l'operador dins de restriccions conegudes; no confiem en l'operador sense restriccions.

La mateixa lògica s'aplica a la IA. Entrena el model bé. Llavors limita la seva superfície d'acció perquè fins i tot quan l'entrenament és imperfecte, el sistema desplegat encara sigui segur. La capa de restricció és el sistema de seguretat; el model és l'optimització dins d'ella.

Això no és un resultat només de recerca. Els equips que envien IA agentic seriosa el 2026 estan convergent en aquest patró des de moltes direccions: arquitectures de governança verificable, assegurament de grau financer, watchdogs en runtime. El framework matemàtic dona al patró una base formal, cosa que el fa més difícil de mal-implementar i més fàcil d'auditar.


Font: Fradelos, G. A Mathematical Solution to the AI Alignment Problem: Topological Constraints on Action Distributions with Progressive Verification (Ginebra, 14 de gener de 2026). SSRN 6307060.

Construint sistemes d'IA on l'alineació importa en producció i preferiries tenir-la per construcció en lloc de per esperança? Parla amb un CTO sobre desplegar capacitat d'enginyeria nearshore amb la disciplina per construir la capa de restricció correctament.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.