Reptes

Governança verificable per a la IA agentic: dels principis consultius als watchdogs en runtime

Per Marc Molas·23 de març del 2026·11 min de lectura

El buit de governança de la IA agentic és estructural, no filosòfic. La major part de la governança d'IA — principis, codis ètics, model cards, marcs consultius — descriu com s'hauria de comportar la IA. Res de tot això no impedeix que la IA faci una altra cosa quan ningú no mira. Per a models predictius sense efectes secundaris al món real, aquest buit és tolerable. Per a agents que actuen a través de tool calls — que envien correus, executen operacions, modifiquen dades de producció, gasten diners — no ho és.

El paper recent Verifiable Governance Architecture (VGA) for Organisations and Teams with Human and AI Employees (Fradelos, gener de 2026) posa nom a aquest buit sense embuts: «molts principis de governança són consultius, mentre que els agents moderns actuen a través de tool calls amb conseqüències al món real». I proposa un patró d'enginyeria per tancar-lo: un Watchdog en runtime que intercepta els tool calls amb semàntica fail-close (default-deny), governança codificada com a policy-as-code (OPA/Rego) i un magatzem d'evidències immutable que impedeix que la IA al·lucini el seu propi compliment.

Aquest és el patró que esperava que algú escrivís d'una vegada. Val la pena entendre'l a fons perquè les decisions no són gens òbvies — i he operat prou guardrails en producció per saber que els modes de fallada de les alternatives més toves són reals, no hipotètics.

La idea central: fronteres d'acció, no comportament mitjà

Tres enfocaments de governança dominen la pràctica actual:

Guardrails al prompt: afegir instruccions de seguretat al system prompt.
Supervisió amb model de recompensa: entrenar el model perquè rebutgi certes accions.
Supervisió de procés: posar revisors humans als punts de decisió.

Tots tres milloren el comportament mitjà. Cap, per si sol, no ofereix garanties a la frontera d'acció per a eines irreversibles.

D'aquesta idea se'n deriva tota la resta del patró. Un agent entrenat per «no exfiltrar dades de clients» no exfiltrarà dades de clients de mitjana. Pot fer-ho en condicions adversarials, amb distribucions de prompt inusuals, en seqüències de tool calls que ningú no havia previst, o senzillament perquè la distribució d'entrenament no cobria aquell escenari concret. Una millora de la mitjana no és una garantia de seguretat per a accions irreversibles.

El patró VGA parteix de la posició contrària: no intentis que l'agent sigui fiablement bo. Fes que les accions que pot executar estiguin acotades per alguna cosa que l'agent no pugui esquivar.

El Watchdog: una frontera que l'agent no pot esquivar

El Watchdog és la capa de runtime que intercepta cada tool call abans que arribi a l'eina. Totes les accions que l'agent vol executar hi passen. Té tres propietats que el distingeixen de les alternatives més laxes:

Fail-close (default-deny)

Si el Watchdog no pot verificar positivament que una acció està permesa, la denega. És just el contrari de la majoria de guardrails en producció, que per defecte són fail-open: si cap regla no encaixa, l'acció tira endavant.

Per a la IA agentic, el fail-close no és negociable, precisament perquè el mode de fallada del fail-open és «l'agent ha fet una cosa que ningú no havia autoritzat perquè la política no preveia el cas». Amb fail-close, el mode de fallada és «l'agent s'ha aturat i ha preguntat», que és recuperable.

Intercepta la superfície d'eines, no la del model

El Watchdog no se situa entre l'usuari i el model: se situa entre el model i les eines. Això importa perquè el raonament del model, el contingut del prompt i les sortides intermèdies entren dins l'àmbit de la moderació de contingut, però no són la frontera d'acció. La frontera d'acció és el tool call. Posar el Watchdog a la superfície d'eines vol dir que la política que s'aplica és la que de debò compta.

Autorització de múltiples parts per a accions sensibles

Hi ha accions que demanen més d'un aprovador, i el Watchdog ho expressa amb naturalitat: un tool call per «transferir més de 10.000 $» exigeix un paquet de verificació signat per l'agent i per un aprovador humà abans de prosseguir. Un tool call per «modificar l'esquema de la base de dades de producció» exigeix un pipeline de CI/CD que hagi passat les comprovacions de seguretat de la migració. L'arquitectura és la mateixa; la política varia segons la sensibilitat.

La matriu MVV: lligar cada llei a un artefacte verificable

La segona idea central és la matriu de Verificació Mínima Viable (MVV): lliga cada regla de governança a un artefacte concret i verificable, i a una cadència concreta amb què aquest artefacte s'ha de produir.

Sense MVV, les regles de governança es queden en aspiracions. «El sistema ha de ser auditable» sona bé i no verifica res. Amb MVV, «el sistema ha de ser auditable» es tradueix en artefactes concrets:

Un log immutable de cada tool call amb la decisió de política adjunta.
Un paquet d'evidències signat que lliga intenció → tool call → resultat.
Un informe d'atestació setmanal d'un auditor designat.
Una revisió externa trimestral amb escenaris de red team.

Cada artefacte té productor, format i cadència definits. Verificar el compliment es redueix a «s'ha produït l'artefacte a temps, en el format correcte i amb signatures vàlides?» — cosa que un pipeline de CI/CD pot comprovar.

Això és el que vol dir realment «governança com a codi» a la pràctica. No són només polítiques en Rego: és l'evidència verificable que les polítiques s'apliquen, produïda pel runtime, amb una cadència fixada, en formats que un regulador podria auditar.

Per què el magatzem d'evidències ha de ser immutable

La decisió de disseny més subtil és el magatzem d'evidències immutable. El Watchdog deixa registre de cada decisió, i aquest registre va a parar a un magatzem que el mateix agent no pot modificar ni antedatar.

La raó és el que el paper anomena al·lucinacions de governança: el mode de fallada en què l'agent produeix un informe de compliment d'aspecte perfectament plausible que no es correspon amb el que ha passat de debò. Si el magatzem d'evidències és modificable per qualsevol cosa a l'abast de l'agent, l'agent — deliberadament o com a comportament emergent — pot fabricar evidència de compliment que no reflecteix les accions executades.

La solució és estructural: el compliment depèn del magatzem d'evidències, el magatzem només el pot modificar el Watchdog, i el Watchdog queda fora de la superfície d'eines de l'agent. Encara que l'agent produeixi un resum de compliment d'aparença impecable, l'auditoria el pot confrontar amb el magatzem immutable i detectar la divergència.

És el mateix principi que separa l'autoritat d'escriptura a la base de dades del codi d'aplicació en qualsevol sistema de producció seriós. La novetat és aplicar-lo a l'evidència de governança d'IA.

Drets de decisió segons la seniority

La quarta idea és operativament important: els agents tenen seniority. Un agent «júnior» té un accés limitat a les eines i necessita autorització de múltiples parts per a gairebé qualsevol acció no trivial. Un agent «professional» té un accés més ampli. Un agent «sènior» pot autoritzar accions d'abast més reduït en nom d'altres.

Sona a control d'accés corporatiu perquè ho és. La gràcia és aplicar-lo específicament als agents d'IA, amb el mateix rigor i la mateixa auditabilitat que el control d'accés per rols de les persones. A la pràctica, això vol dir:

Els agents nous comencen de júniors, amb accés restringit a les eines. Només guanyen (o se'ls configura) un abast més ampli després de superar una verificació concreta.
La frontera és l'accés a les eines, no «l'entrenament del model» ni «el system prompt». Dos agents amb el mateix model poden tenir drets de decisió molt diferents segons les seves polítiques d'accés.
Les promocions són explícites i auditades. Quan un agent passa d'abast professional a sènior, el canvi queda registrat, l'evidència es conserva i fer marxa enrere és senzill.

Aquesta és la part que encara veig fer malament a la majoria de sistemes agentic en producció el 2026: un sol rol d'agent amb totes les eines, i la frontera és un system prompt. El patró de seniority és una representació més honesta del que realment cal.

El compliment esdevé una propietat dels artefactes

El patró està dissenyat explícitament per encaixar amb les obligacions de registre i de robustesa de l'EU AI Act. El magatzem d'evidències cobreix el registre. El Watchdog fail-close cobreix la robustesa. La matriu MVV cobreix els requisits d'auditabilitat. L'autorització de múltiples parts cobreix els requisits de supervisió humana per a sistemes d'alt risc.

I no és casualitat. L'arquitectura està pensada perquè el compliment esdevingui una propietat dels artefactes produïts, no una qüestió de «s'ha portat bé, l'agent?». És l'única manera duradora de complir regulacions que demanen evidència, no confiança.

Què vol dir això si ara mateix construeixes sistemes agentic

Accions pràctiques per a qualsevol equip que posi IA agentic en producció el 2026:

Porta l'aplicació de polítiques a la superfície d'eines. Si els guardrails viuen al system prompt, tens governança consultiva. Posa un mediador fail-close entre el model i les eines.
Adopta policy-as-code. OPA/Rego és l'opció més madura; l'eina concreta importa menys que la disciplina. Les polítiques en codi es poden revisar, versionar, provar a CI i auditar. Les polítiques en prompts, no.
Construeix el magatzem d'evidències abans d'escalar. Un log immutable i signat de les accions dels agents és molt més difícil d'afegir a posteriori que de dissenyar des del primer dia. Encara que de moment no necessitis l'auditoria, només pel valor que té per al debugging operacional ja surt a compte.
Aplica seniority als agents. Els agents nous tenen un abast reduït. L'ampliació d'abast és explícita, auditada i reversible. No facis córrer tots els agents amb el mateix nivell d'autorització.
Exigeix autorització de múltiples parts en accions irreversibles. Tot el que sigui financer, tot el que toqui dades de clients, tot el que modifiqui producció. El cost en rendiment és molt més petit que el cost d'una sola mala acció.

Què no fa el patró VGA

Dos límits que val la pena reconèixer obertament.

No millora el model. VGA acota el que l'agent pot fer; no canvia com de bé raona dins d'aquests límits. Millorar el comportament del model continua sent important — però ara és un problema d'optimització dins d'uns límits de seguretat coneguts, no el mecanisme de seguretat en si.

Té un cost en latència. Cada tool call passa per una avaluació de política. Amb bundles d'OPA ben afinats parlem de mil·lisegons, però no és zero. Als camins sensibles a la latència caldrà filar prim — normalment amb decisions en cache per als camins calents i avaluació per petició per als sensibles.

El cost és real. El cost de no tenir-ho és molt més alt, i es paga en forma de titulars.

El pas de la governança consultiva a la verificable per a la IA agentic ja està en marxa. El patró és sobre la taula; adoptar-lo ja és una decisió d'enginyeria, no un projecte de recerca.

Font: Fradelos, G. Verifiable Governance Architecture (VGA) for Organisations and Teams with Human and AI Employees (Ginebra, 9 de gener de 2026). SSRN 6306840.

Construeixes sistemes agentic i et cal capacitat d'enginyeria que ja treballa amb policy-as-code, watchdogs fail-close i magatzems d'evidències immutables? Parla amb un CTO per desplegar un squad nearshore amb la disciplina que demana la governança verificable d'IA.