← Tornar a tots els articles
Reptes

Governança Verificable per a IA Agentic: De Principis Consultius a Watchdogs en Runtime

Per Marc Molas·23 de març del 2026·11 min de lectura

El forat de governança a la IA agentic és estructural, no filosòfic. La majoria de la governança d'IA — principis, codis d'ètica, model cards, frameworks consultius — descriu com hauria de comportar-se la IA. Res d'això evita que la IA faci una altra cosa quan ningú està mirant. Per a models predictius sense efectes secundaris al món real, aquest forat és tolerable. Per a agents que actuen a través de tool calls — enviant emails, executant trades, modificant dades de producció, gastant diners — no ho és.

El paper recent Verifiable Governance Architecture (VGA) for Organisations and Teams with Human and AI Employees (Fradelos, gener 2026) anomena aquest forat directament: "molts principis de governança són consultius, mentre que els agents moderns actuen a través de tool calls amb conseqüències al món real." Llavors proposa un patró d'enginyeria per tancar-lo: un Watchdog en runtime que media els tool calls amb semàntica fail-close (default-deny), governança codificada com a polítiques-com-codi (OPA/Rego), i un magatzem d'evidència immutable que evita que la IA al·lucini el seu propi compliment.

Aquest és el patró de disseny que el camp ha necessitat un temps. Val la pena entendre'l en detall perquè les decisions són no-òbvies i els modes de fallada de les alternatives més febles són reals.

La Idea Central: Fronteres d'Acció, No Comportament Mitjà

Tres enfocaments de governança dominen la pràctica actual:

  1. Guardrails de prompt: afegir instruccions de seguretat al system prompt.
  2. Supervisió de model de recompensa: entrenar models per rebutjar certes accions.
  3. Supervisió de procés: inserir revisors humans als punts de decisió.

Tots tres milloren el comportament mitjà. Cap d'ells, per si sol, proporciona garanties de frontera d'acció per a eines irreversibles.

Aquesta és la idea que fa que la resta del patró segueixi. Un agent que ha estat entrenat per "no exfiltrar dades de clients" no exfiltrarà dades de clients de mitjana. Pot exfiltrar dades de clients en condicions adversarials, en distribucions de prompt inusuals, en seqüències de tool call que ningú va anticipar, o simplement perquè la distribució d'entrenament no cobria l'escenari específic. Les millores mitjanes no són garanties de seguretat per a accions irreversibles.

El patró VGA comença des de la postura contrària: no intentis fer l'agent fiablement bo. Fes que les accions que l'agent pot prendre estiguin limitades per alguna cosa que l'agent no pugui esquivar.

El Watchdog

El Watchdog és la capa de runtime que media cada tool call abans que arribi a l'eina. Cada acció que l'agent vol fer hi passa. El Watchdog té tres propietats que el distingeixen d'alternatives més laxes:

Fail-close (default-deny)

Si el Watchdog no pot verificar positivament que una acció està permesa, l'acció es denega. Aquest és el contrari de la majoria de patrons de guardrail en producció, que són fail-open per defecte — si la regla no fa match, l'acció procedeix.

Fail-close no és negociable per a IA agentic específicament perquè el mode de fallada de fail-open és "l'agent va fer una cosa que ningú va autoritzar quan la política no anticipava el cas". Fail-close significa que el mode de fallada és "l'agent es va aturar i va preguntar", que és recuperable.

Media la superfície d'eines, no la superfície del model

El Watchdog no s'asseu entre l'usuari i el model. S'asseu entre el model i les eines. Això importa perquè el raonament del model, el contingut del prompt i les sortides intermèdies tots són en abast per a la moderació de contingut, però no són la frontera d'acció. La frontera d'acció és el tool call. Posar el Watchdog a la superfície d'eines significa que la política aplicada és la política que de veritat importa.

Autorització multi-part per a accions sensibles

Algunes accions requereixen més d'un aprovador. El Watchdog ho pot expressar naturalment: un tool call per "transferir >10k$" requereix un evidence packet signat tant per l'agent com per un aprovador humà abans que la crida procedeixi. Un tool call per "modificar l'esquema de la base de dades de producció" requereix un pipeline CI/CD que ha executat les comprovacions de seguretat de migració. L'arquitectura és la mateixa; la política varia per sensibilitat.

La Matriu MVV: Vinculant Lleis a Artefactes Verificables

La segona idea central és la matriu de Verificació Mínima Viable (MVV). Vincula cada regla de governança a un artefacte específic verificable i a una cadència específica a la qual aquest artefacte ha de produir-se.

Sense MVV, les regles de governança esdevenen aspiracionals. "El sistema ha de ser auditable" sona bé i no verifica res. Amb MVV, "el sistema ha de ser auditable" es tradueix en artefactes específics:

  • Un log immutable de cada tool call amb la decisió de política adjunta.
  • Un evidence packet signat lligant intenció → tool call → resultat.
  • Un informe d'atestació setmanal d'un auditor designat.
  • Una revisió externa trimestral amb escenaris red-team.

Cada artefacte té un productor, format i cadència definits. La verificació del compliment es redueix a "es va produir l'artefacte a temps, en el format correcte, amb signatures vàlides?" — que és alguna cosa que un pipeline CI/CD pot comprovar.

Això és el que "governança-com-codi" significa realment a la pràctica. No són només polítiques en Rego. És l'evidència verificable de l'aplicació de polítiques, produïda pel runtime, segons un calendari, en formats que un regulador podria auditar.

Per Què el Magatzem d'Evidència Ha de Ser Immutable

La decisió de disseny més subtil és el magatzem d'evidència immutable. El Watchdog produeix un registre de cada decisió; aquest registre va a un magatzem que el propi agent no pot modificar ni canviar la data.

La raó és el que el paper anomena al·lucinacions de governança: el mode de fallada on l'agent produeix un informe de compliment amb aspecte plausible que no coincideix amb el que va passar realment. Si el magatzem d'evidència és modificable per qualsevol cosa a l'abast de l'agent, l'agent (deliberadament o com a comportament emergent) pot produir evidència de compliment que no reflecteix les accions preses.

L'arranjament és estructural: el compliment depèn del magatzem d'evidència, el magatzem d'evidència és modificable només pel Watchdog, el Watchdog està fora de la superfície d'eines de l'agent. Fins i tot si l'agent produeix un resum de compliment perfecte, l'auditoria pot comparar-lo amb el magatzem immutable i detectar la divergència.

Aquest és el mateix principi que separar l'autoritat d'escriptura a base de dades del codi d'aplicació en qualsevol sistema seriós de producció. La novetat és aplicar-lo a l'evidència de governança d'IA.

Drets de Decisió Dependents de l'Antiguitat

La quarta idea és operativament important: els agents tenen antiguitat. Un agent "júnior" té accés a eines estret i requereix autorització multi-part per a la majoria d'accions no trivials. Un agent "professional" té accés més ampli. Un agent "sènior" pot autoritzar accions d'abast més estret en nom d'altres.

Això sona com el control d'accés empresarial perquè ho és. La qüestió és aplicar-lo específicament a agents d'IA, amb el mateix rigor i auditabilitat que el control d'accés basat en rols humans. A la pràctica això significa:

  • Els agents nous comencen com a júniors amb accés a eines limitat. Guanyen (o estan configurats a) abast més ampli només després de passar verificació específica.
  • L'accés a eines és la frontera, no "l'entrenament del model" o "el system prompt". Dos agents usant el mateix model poden tenir drets de decisió molt diferents segons les seves polítiques d'accés.
  • Les promocions són explícites i auditades. Quan un agent es mou d'abast professional a sènior, el canvi es registra, l'evidència es reté, el rollback és senzill.

Aquesta és la part que la majoria de sistemes agentic en producció el 2026 encara equivoquen. Tenen un sol rol d'agent amb totes les eines, i la frontera és un system prompt. El patró d'antiguitat és una representació més honesta del que realment cal.

Mapejat a Règims de Compliment Reals

El patró està explícitament dissenyat per mapejar-se a les obligacions de manteniment de registres i robustesa de l'EU AI Act. El magatzem d'evidència satisfà el manteniment de registres. El Watchdog fail-close satisfà la robustesa. La matriu MVV satisfà els requisits d'auditabilitat. L'autorització multi-part satisfà els requisits de supervisió humana per a sistemes d'alt risc.

Això no és accidental. L'arquitectura està dissenyada perquè el compliment esdevingui una propietat dels artefactes produïts, no una qüestió de "es va comportar bé l'agent". Aquesta és l'única manera durable de complir amb regulacions que requereixen evidència en lloc de confiança.

Què Significa Si Estàs Construint Sistemes Agentic Ara

Accions pràctiques per a qualsevol equip que envia IA agentic el 2026:

  1. Mou l'aplicació de polítiques a la superfície d'eines. Si els teus guardrails viuen al system prompt, tens governança consultiva. Posa un mediador fail-close entre el model i les eines.

  2. Adopta polítiques-com-codi. OPA/Rego és l'opció més madura; l'eina específica importa menys que la disciplina. Les polítiques en codi es poden revisar, versionar, provar a CI i auditar. Les polítiques en prompts no.

  3. Construeix el magatzem d'evidència abans d'escalar. Un log immutable i signat d'accions d'agent és molt més difícil de retroadaptar que de dissenyar des del principi. Encara que encara no necessitis l'auditoria, el valor de debugging operacional sol justificar el cost.

  4. Aplica antiguitat als agents. Els agents nous obtenen abast estret. L'expansió d'abast és explícita, auditada i reversible. No executis tots els teus agents al mateix nivell d'autorització.

  5. Executa autorització multi-part en accions irreversibles. Qualsevol cosa financera, qualsevol cosa que toqui dades de clients, qualsevol cosa que modifiqui producció. El cost de rendiment de l'autorització multi-part és molt més petit que el cost d'una mala acció.

Què No Fa VGA

Dos límits honestos val la pena anomenar.

No fa el model millor. VGA limita el que l'agent pot fer; no canvia com de bé l'agent raona dins d'aquests límits. Millorar el comportament del model encara és important — però ara és un problema d'optimització dins de límits de seguretat coneguts, no el mecanisme de seguretat en si.

Costa latència. Cada tool call passa per avaluació de política. Amb bundles OPA ben afinats això és mil·lisegons, però no és zero. Per a camins sensibles a la latència, hauràs d'enginyar amb cura — típicament amb decisions emmagatzemades en cache per a camins calents i avaluació per petició per als sensibles.

El cost és real. El cost de no tenir-ho és molt més alt, i apareix com a titulars.

El canvi de governança consultiva a verificable per a IA agentic està passant; l'única qüestió és si la teva organització està per davant o per darrere de la corba. El patró d'arquitectura és aquí. Adoptar-lo ja no és un projecte de recerca.


Font: Fradelos, G. Verifiable Governance Architecture (VGA) for Organisations and Teams with Human and AI Employees (Ginebra, 9 de gener de 2026). SSRN 6306840.

Construint sistemes agentic i necessites capacitat d'enginyeria que ja construeix amb polítiques-com-codi, watchdogs fail-close i magatzems d'evidència immutables? Parla amb un CTO sobre desplegar un squad nearshore amb la disciplina adequada per a governança d'IA verificable.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.