← Tornar a tots els articles
Reptes

Assegurament de Grau Financer per a IA Agentic: Risc de Monocultiu i el Heterogeneity Score

Per Marc Molas·30 de març del 2026·12 min de lectura

La majoria de discussió sobre governança d'IA tracta la seguretat com una propietat única d'un sistema individual. Els bancs i asseguradores no tenen aquest luxe. Quan la IA agentic s'envia a fluxos financers — decisions de crèdit, execució de trades, gestió de reclamacions, revisió AML — la superfície de risc inclou no només el mode de fallada per agent sinó el mode de fallada sistèmic: molts agents en moltes institucions, tots compartint la mateixa família de model, tots prenent decisions dolentes correlacionades al mateix temps, tots reaccionant a la mateixa distribució de prompt.

Això no és hipotètic. És el mateix tipus de risc de fallada correlacionada que va portar els reguladors a preocupar-se pel monocultiu de models a la finança quantitativa fa dues dècades. El paper actual Finance-Grade Assurance for Agentic AI (Fradelos, gener 2026) pren el patró de governança verificable i l'estén explícitament per a fluxos financers d'alt risc. Les contribucions principals: un sistema de control en capes que el paper anomena FG-VGA, i una mètrica operativa anomenada Heterogeneity Score (HS) que tracta el monocultiu de models com un risc auditable de primera classe.

Aquest és el paper a llegir si ets un CTO en una institució financera que envia agents a qualsevol cosa que els reguladors importi. També és útil molt més enllà de la finança, perquè el patró arquitectònic generalitza.

Què Fa la Governança "Grau Financer"

L'assegurament de grau financer no és només governança "més rigorosa". És una forma específica que els règims supervisors (gestió de risc de model, resiliència operacional, preocupacions de risc sistèmic ESRB/FSB) realment requereixen. El paper identifica quatre propietats que els enfocaments de governança d'IA actuals típicament manquen:

  1. Gating de polítiques verificable per màquina per a accions agèntiques — no "se suposa que el model ha de seguir aquesta política", sinó "el runtime no pot executar l'acció a menys que passi la verificació de política".
  2. Evidence packets que lliguen intenció, tool calls i resultats — cada acció produeix un registre signat que lliga la intenció declarada de l'agent, el tool call real i el resultat observat. Reconstruïble. A prova de manipulació.
  3. Controls de desplegament lligats a atestació — els agents només corren en entorns d'execució atestats. L'evidence packet enllaça a l'atestació, així que un auditor pot verificar que una acció donada va ser presa pel codi esperat al hardware esperat.
  4. Una mètrica operativa que tracta el comportament correlacionat d'agents com a risc de primera classe — no només risc per agent, sinó el risc sistèmic de molts agents convergint a la mateixa resposta perquè comparteixen el mateix model subjacent.

Els tres primers són extensions del patró d'arquitectura de governança verificable. El quart és la contribució genuïnament nova.

El Heterogeneity Score

El Heterogeneity Score (HS) és una mètrica auditable i executable de quanta diversificació de model i vendor existeix en un desplegament agentic donat. La intenció és operacionalitzar el que ha estat una preocupació en l'aire a la discussió de risc d'IA: el fet que si l'IA agentic de cada banc per a decisions de crèdit es construeix sobre els mateixos dos models de fundació, el mode de fallada d'aquests models esdevé sistèmic.

L'HS es calcula contra el desplegament agentic en abast i s'utilitza com a condició d'autorització. Per sobre del llindar, el desplegament està permès. Per sota del llindar, el desplegament es bloqueja o requereix acceptació de risc explícita d'un individu sènior responsable.

Tres coses fan l'HS pràctic:

És mesurable

L'HS es construeix a partir d'entrades concretes: el conjunt de famílies de models en ús, el conjunt de vendors, la correlació de comportament d'agent en una distribució benchmark. Aquestes són quantitats auditables. No són perfectes — la correlació de comportament del model és una cosa difícil de mesurar amb rigor — però són prou concretes per fer-hi gating.

És una porta de desplegament, no una mètrica de reporting

Aquesta és la diferència operativa. La majoria de requisits de "diversitat" als frameworks de risc d'IA són requisits de reporting: descrius el que estàs fent, el regulador ho revisa, el desplegament procedeix. L'HS és una porta: el runtime de desplegament comprova la puntuació i rebutja procedir si està per sota del llindar. La rebutja és una propietat del sistema, no una propietat del judici humà.

Es mapeja a preocupacions de risc sistèmic que els reguladors ja estan plantejant

ESRB, FSB, FINMA i altres han estat senyalant preocupació sobre el monocultiu de models a la IA financera. L'HS està dissenyat per ser la mètrica concreta que els supervisors poden examinar, no només una afirmació vaga que "usem múltiples vendors".

Les Quatre Monedes Auditables

El moviment arquitectònic més profund al paper és descompondre la seguretat en quatre "monedes" auditables:

  • Seguretat probabilística: quina probabilitat té el sistema de violar els límits de seguretat, amb evidència quantitativa.
  • Seguretat d'energia i compute: el cost de recursos d'operar el sistema, incloent càrrega pic i demanda correlacionada.
  • Seguretat epistèmica: la integritat de coneixement del sistema — sap el que sap, marca la incertesa, fa cross-check.
  • Seguretat social i ambiental: les externalitats d'operar el sistema — equitat, petjada ambiental, impacte social.

Cada moneda té la seva pròpia metodologia de mesurament, format d'evidència i cadència d'auditoria. El pipeline de governança les torna a muntar en una decisió d'autorització de desplegament.

La raó per la qual aquesta descomposició importa és que les quatre monedes no compensen netament. Un sistema pot ser probabilísticament segur i energèticament malbaratador. Pot ser epistèmicament rigorós i socialment perjudicial. Tractar la "seguretat d'IA" com a una mètrica escalar única amaga aquests trade-offs. Tractar-la com a quatre monedes comptades per separat fa els trade-offs explícits i auditables.

Què Conté Realment un Evidence Packet

L'evidence packet és la unitat de registre auditable. Per a cada acció d'agent amb significació regulatòria, el packet ha de lligar:

  • Intenció: l'objectiu declarat de l'agent per a l'acció, derivat del seu reasoning trace.
  • Context d'autorització: les decisions de política avaluades, l'antiguitat de l'agent, les firmes multi-part (si n'hi ha).
  • Tool call: la invocació exacta de l'eina, paràmetres, sistema objectiu.
  • Estat pre-acció: el que era cert abans de l'acció.
  • Resultat: el que va retornar l'eina i quin estat va canviar.
  • Estat post-acció: el que és cert després.
  • Punter d'atestació: una referència criptogràfica a l'atestació del runtime (l'agent va córrer en aquest codi en aquest hardware en aquesta configuració).

Aquests packets són signats pel Watchdog, emmagatzemats en un evidence store immutable, i posats a disposició d'auditors interns i externs sota demanda. Esdevenen el substrat del compliment: no "confiem que l'agent es comportarà bé", sinó "aquí està el registre criptogràficament signat del que l'agent realment va fer".

Per Què la Gestió de Risc de Model Necessita Actualització

Els frameworks de gestió de risc de model (MRM) existents van ser dissenyats per a models predictius. El model és un artefacte fix; el valides, el monitores per drift, el revalides periòdicament. La IA agentic trenca aquest patró de dues maneres:

  1. El comportament de l'agent canvia amb el context. El mateix model pot prendre accions diferents segons el prompt, l'historial de conversa, les eines disponibles, el rol de l'usuari. MRM que valida "el model" no et diu què farà l'agent.

  2. La superfície de risc té forma d'acció, no forma de predicció. Els models predictius produeixen sortides sobre les quals els humans actuen. Els agents produeixen accions directament. El risc dels agents és risc d'acció, no risc de predicció. Els frameworks MRM dissenyats per a risc de predicció estan perdent la unitat rellevant.

El patró FG-VGA aborda totes dues: la validació és a nivell de política i autorització, no a nivell de model; el monitoratge és sobre distribucions d'acció, no distribucions de sortida; l'evidence store immutable proporciona el registre per acció que la gestió de risc a nivell d'acció requereix.

Què Han De Fer els CTO en Institucions Financeres

Tres accions concretes per a qualsevol institució financera que estigui desplegant activament IA agentic:

1. Adopta evidence packets a nivell d'acció ara

Tant si el teu regulador ho requereix actualment com si no, construeix la generació de l'evidence packet al runtime de l'agent. El cost de retroadaptar-ho més tard és dramàticament més alt que construir-ho inicialment. El valor intern sol — debugging, anàlisi d'incidents, avaluació de capacitat — normalment justifica el cost.

2. Mesura el teu Heterogeneity Score fins i tot informalment

Encara que no formalitzis el càlcul de l'HS, audita la teva diversificació de models. Si el teu agent de detecció de frau, el teu agent AML, el teu agent KYC i el teu agent d'atenció al client estan tots al mateix model de fundació del mateix vendor, tens un risc de monocultiu no mesurat. La diversificació entre famílies de models és la mitigació pràctica.

3. Planifica per a l'atestació

El compute confidencial i l'atestació remota encara no són mainstream als desplegaments d'IA en producció, però la direcció regulatòria és clara. La IA agentic en fluxos regulats necessitarà execució atestable als propers anys. Construir cap a un desplegament preparat per a l'atestació ara és molt més barat que retroadaptar.

Què Significa Això Fora de la Finança

El patró generalitza ben més enllà de la finança. Qualsevol sector amb:

  • Accions irreversibles d'alt risc (salut, legal, infraestructura)
  • Requisits de responsabilitat regulatòria (utilities, assegurances, serveis públics)
  • Preocupacions de fallada correlacionada sistèmica (qualsevol lloc on un error d'IA a escala crea dany en cascada)

…es beneficia de la mateixa arquitectura. El concepte d'Heterogeneity Score s'aplica a qualsevol desplegament on molts operadors independents podrien convergir al mateix model. El patró d'evidence packet s'aplica a qualsevol desplegament on la reconstrucció post-incident importi. La descomposició de quatre monedes s'aplica allà on la seguretat no sigui escalar.

L'assegurament de grau financer és, en efecte, la versió de barra alta de la governança d'IA agentic. Les versions de barra mitjana semblen molt similars amb cadències d'auditoria relaxades i requisits d'atestació més lleugers. Els CTO que construeixen per a la versió de barra alta acaben amb infraestructura que funciona per a la versió de barra mitjana automàticament. Construir només per a barra mitjana típicament requereix un rebuild quan la barra es mou.

La barra s'està movent. La finança és només un dels primers a moure's.


Font: Fradelos, G. Finance-Grade Assurance for Agentic AI: Verifiable Governance, Systemic Risk Mitigation, and Sustainability/Compute Accounting Architecture for banks, insurers, and major financial services providers (Ginebra, 11 de gener de 2026). SSRN 6306980.

Enviant IA agentic a un entorn regulat i necessites capacitat d'enginyeria que ja construeix amb atestació, evidence packets i desplegament conscient d'heterogeneïtat? Parla amb un CTO sobre desplegar un squad nearshore amb la disciplina que el treball de grau financer requereix.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.