McKinsey 2026: la confiança en IA puja a 2,3. La meva infraestructura encara no s'ho creu.
McKinsey acaba de publicar la seva enquesta anual sobre maduresa de la confiança en IA, presentada aquest any sota l'etiqueta de l'era agèntica. Unes 500 organitzacions enquestades entre desembre de 2025 i gener de 2026. Puntuació mitjana de maduresa: 2,3 sobre 5, lleugerament per sobre del 2,0 de l'any anterior. Un 62% com a mínim experimenta amb agents, i un 23% ja els escala en algun punt. I el titular que importa de debò: gairebé dos terços dels enquestats citen seguretat i risc com la primera barrera per escalar IA agèntica, per davant fins i tot de la incertesa regulatòria.
Aquesta xifra és la que hauria d'aterrar en qualsevol roadmap de plataforma aquest trimestre. Des d'on jo treballo — DevOps i infraestructura per a empreses que han de defensar la seva pila davant d'un regulador — el missatge de l'informe no és optimista. És una llista de coses que encara no estan muntades sota les diapositives bones de la keynote.
L'enquadrament de McKinsey: la confiança ja no és compliment, és valor de negoci
L'angle d'aquest any és deliberat. McKinsey diu que la influència percebuda d'alguns marcs regulatoris ha baixat i que les empreses passen d'una motivació compliance-led a una de value-driven. Tradueixo: els directius volen parar de veure la governança de la IA com un cost obligat i començar a veure-la com una palanca d'ingressos.
Em sembla bé com a marc de discurs. Em sembla tòxic com a marc operatiu si no entens què hi ha sota. La part que cita l'informe — que les organitzacions amb més de 25 milions de dòlars invertits en responsible AI tenen impactes d'EBIT superiors al 5% — no és perquè la governança "afegeixi valor" per art de màgia. És perquè les empreses que han posat aquests diners també han construït:
- Pipelines d'avaluació amb golden sets versionats.
- Atribució de cost per agent i per ruta.
- Catàlegs d'eines amb scopes i quotes per agent.
- Un equip de plataforma d'IA dedicat, amb rotació d'on-call pròpia.
- Lineage de prompts, models, embeddings, retrieval i decisions.
Si el teu CFO veu el número del 5% i dedueix que la governança paga, perfecte. Però que ningú confongui la conclusió: el que paga és la infraestructura. La governança és el que la fa defensable. Sense la primera no tens producte; sense la segona no tens permís d'explotació.
El 23% que "escala agents" és més petit del que sembla
L'altra xifra que circularà a moltes presentacions de comitè aquest mes és que el 23% de les empreses ja escalen agents en algun lloc. Llegit literalment, és una fita. Llegit com a enginyer que després ha de mantenir aquests sistemes drets, és una pregunta:
Escalats com? Amb quins SLOs? Sota quina classificació de risc? Amb quin pla d'incident?
L'informe és prou honest per dir que només al voltant d'un terç de les organitzacions reporten nivells de maduresa de 3 o superior en governança, estratègia i governança específica d'agents. La distància entre "23% escala agents" i "33% té governança de nivell 3" és exactament l'espai on viuran els pròxims incidents d'IA que sortiran a premsa.
En entorns regulats — banca, salut, energia, sector públic — aquesta distància no és un risc teòric. És una troballa d'auditoria que un supervisor pot tancar amb una ordre de remediació. La pregunta que faig a qualsevol equip que vulgui escalar agents en aquests sectors és la mateixa que faria un examinador del BCE o de l'OCC: ensenya'm les proves.
El 65% versus el 23%: la diferència és human-in-the-loop ben fet
Una de les dades més útils de l'informe és la bretxa entre high performers i la resta en validació humana: un 65% dels líders tenen processos definits de human-in-the-loop, per un 23% al grup endarrerit. Aquí l'informe descriu correctament un fenomen que jo veig cada setmana a auditories tècniques: la diferència entre un sistema d'IA que aguanta una revisió interna i un que no és, gairebé sempre, el rigor de la capa humana, no la qualitat del model.
Però human-in-the-loop és una etiqueta que tapa quatre dissenys molt diferents:
- HITL d'aprovació explícita — l'agent proposa, l'humà signa. És el patró que un regulador entén sense traduccions. Lent, però defensable.
- HITL per excepció — l'agent decideix amb autonomia per sota d'un llindar de confiança, l'humà entra quan se supera. Requereix un confidence estimator calibrat. Molts equips utilitzen aquí la probabilitat del logit del model com a proxy, i no ho és. Calibreu o moriu.
- HITL post-hoc — l'humà revisa una mostra estadística després del fet. Útil per a drift detection, insuficient com a control primari en sectors regulats.
- HITL teatral — hi ha un humà al workflow, però el seu rol real és prémer aprovar en lots de 200 perquè la cua avança massa de pressa. Això no és governança, és absolució amb teclat. Apareixerà a la primera auditoria seriosa.
Quan treballem amb un client del 65%, gairebé sempre fa servir una barreja calibrada de l'1 i el 2 amb un mostreig estadístic del 3. Quan treballem amb un del 23%, gairebé sempre està al 4 sense saber-ho. Aquesta és la diferència real, i és arquitectònica abans que cultural. Ja n'he escrit llargament, i el meu jo del passat encara ho ha d'anar repetint.
«Fer el que no toca» és un problema nou per al runbook
McKinsey introdueix una distinció que val la pena robar tal qual: en l'era agèntica les empreses ja no es poden preocupar només pels sistemes que diuen el que no toca, sinó que també han de comptar amb sistemes que fan el que no toca — que executen accions no previstes, fan mal ús d'eines o operen fora dels seus guardrails.
Aquest canvi és el que trenca la majoria dels runbooks que veig a clients que venen de l'era chatbot. Tota la disciplina d'observabilitat construïda al voltant de latència, error rate, throughput continua sent necessària, però ja no és suficient. Cal un segon eix de monitoratge:
- Inventari d'eines disponibles per agent, amb scopes, rate limits i destinacions permeses. Si l'agent A pot tocar Salesforce, l'agent B no hi hauria de poder arribar transitivament per delegació.
- Quotes de cost i d'acció per agent i per finestra de temps. Un bucle infinit d'un agent que crida una API externa de pagament és un incident financer abans que un incident de SRE.
- Alarmes de comportament, no només d'error: l'agent que fins ahir feia una cosa i avui en fa una altra contra dades reals — encara que tècnicament no falli — és el senyal d'incident que defineix aquesta era.
- Audit trail signat de cada acció d'eina executada, no només dels missatges del model. En un entorn regulat, qui ha fet què contra el meu sistema de registre és la pregunta de l'examinador, no què ha dit l'LLM.
Si la teva pila no genera aquest segon flux, no tens agents en producció. Tens una demo amb permisos elevats. La distància entre les dues coses la pagaràs amb un incident, amb un titular o amb una multa, en aquest ordre.
Què canvia exactament en un entorn regulat
L'informe parla de l'EU AI Act i de l'horitzó de tres anys fins a la seva aplicació completa. Assenyala correctament que un enfocament conservador — anticipar els estàndards probables sobre supervisió humana, protecció de dades i equitat — ajuda les empreses a anar per davant. Hi estic d'acord. I afegeixo, des de l'enginyeria, què vol dir "anar per davant" a la pràctica mentre la regulació encara s'està concretant:
- Classificació de risc del sistema, no del model. La majoria d'equips classifica el risc de l'LLM. El que el regulador vol classificar és el sistema sociotècnic complet: model + retrieval + eines + flux humà + dades. Sense aquest mapa, no pots ni començar a respondre l'Article 9 de l'AI Act.
- Versionat conjunt de model, prompt i índex de retrieval. Un canvi en qualsevol dels tres ha de produir un artifact immutable, signat i traçable. Si versiones el model però no l'índex de retrieval, no pots reproduir una decisió de fa sis mesos sota una citació judicial. Això ja no és una preferència d'enginyeria, és un requisit.
- Polítiques d'aïllament de dades aplicades a la sortida del retrieval, no només a l'entrada. La major part de fugues que veig en pilots regulats venen del retrieval recuperant més del compte i el model recitant-ho amb confiança. La política s'ha d'aplicar abans que el context arribi al model, no després.
- Gates de desplegament amb prova. Un push d'un nou prompt a producció hauria de passar una bateria mínima d'evals — alineació, biaix, fugues, comportament d'eines — abans de tocar trànsit real. La idea de proof-carrying deployment deixa de ser acadèmica quan el supervisor et demana evidència del que vas validar abans del canvi.
- Pla de retirada controlada. Cada agent en producció hauria de tenir un kill switch documentat, provat i d'execució mesurada en minuts. No "el podem despublicar al pròxim sprint". Minuts. En un entorn regulat, l'opció de no actuar és sovint més segura que actuar; el teu sistema ha de saber-ho fer.
Cap d'aquestes cinc coses no surt de sèrie amb cap plataforma agèntica que jo hagi vist al mercat aquest any. Totes cinc són feina d'arquitectura pròpia. La literatura en diu arquitectura de governança verificable; jo prefereixo dir-ne un runbook que un advocat pot signar.
El biaix de l'informe: optimista per construcció
Un avís sobre les dades. L'enquesta de McKinsey la responen, per definició, perfils que ja tenen responsabilitat directa o expertesa en governança, gestió de risc o decisions d'inversió en IA. És una mostra autoseleccionada cap a les empreses que tenen aquestes funcions definides. La realitat al mercat mitjà és pitjor que la que reporta l'informe — no perquè McKinsey enganyi, sinó perquè les empreses sense un AI risk officer no responen aquest tipus d'enquestes i, per tant, no apareixen al numerador ni al denominador.
Si a la teva organització no hi ha ningú que pugui respondre aquesta enquesta amb coneixement de causa, la teva maduresa real probablement no és 2,3. És més a prop d'1, i la primera tasca no és pujar a 3; és construir el rol que permet mesurar-ho amb honestedat.
Què posaria al meu propi roadmap aquest trimestre
Si haig de traduir l'informe a accions concretes per a un equip de plataforma en un sector regulat, faria això abans del proper board update:
- Un inventari real d'agents en producció, no només dels que el màrqueting anomena agents. Hi compto els cron jobs, els webhooks i els scripts que criden un LLM amb permisos elevats.
- Una sola taula que respongui qui pot fer què: agent, eines, scopes, dades accessibles, humà responsable, mètriques de comportament. Si no cap en una taula, no la pots defensar.
- Pressupost explícit de governança: persones, eines, evals, plataforma. L'informe diu que els que inverteixen >25M$ veuen retorn. La teva xifra no serà aquesta, però el principi sí: la governança que no té pressupost és teatre.
- Un exercici de kill switch per agent crític, cronometrat. Si triga més de deu minuts, no el tens.
- Una conversa adulta amb risc i compliment normatiu. La maduresa de governança creix quan enginyeria, risc i compliment comparteixen vocabulari. L'informe identifica correctament aquesta bretxa com una barrera de primer ordre per a moltes empreses; el remei és cultural i organitzatiu abans que tècnic.
La línia que dibuixo
L'enquesta de McKinsey té raó en l'observació central: la IA agèntica trasllada el problema de dir a fer, i això canvia el tipus de governança que necessites tenir muntada per posar res en producció. La meva pregunta no és si el sector global és més madur (sí, una mica) o si el risc puja (clarament). La meva pregunta és si, al teu sistema concret, un examinador podria demanar el log d'accions, el lineage de la decisió, l'historial de validació humana i el resultat de l'última eval prèvia al desplegament — i tu podries posar-li tots quatre artefactes sobre la taula dins de la mateixa hora.
Si la resposta és sí, formes part del 33% amb maduresa real i pots començar a parlar de valor de negoci. Si la resposta és no, el 2,3 mitjà de l'informe encara és aspiracional per a tu, independentment del que digui la diapositiva del comitè.
Les empreses que guanyaran l'era agèntica no seran les que escalin agents més de pressa. Seran aquelles que, quan el regulador, l'auditor o l'investigador d'incidents apareguin, puguin obrir el runbook i anar passant pàgines sense apartar la mirada.
Fonts:
- McKinsey & Company, State of AI trust in 2026: Shifting to the agentic era, abril de 2026. mckinsey.com
- McKinsey & Company, Trust in the age of agents — Agentic AI governance for autonomous systems. mckinsey.com
- McKinsey & Company, Deploying agentic AI with safety and security: A playbook for technology leaders. mckinsey.com
Poses agents d'IA en producció sota un regulador de debò i no tens clar que el teu runbook aguanti la primera auditoria? Parla amb un CTO — t'ajudem a separar la maduresa real de la diapositiva.


