Reptes

McKinsey 2026: la confiança en IA puja a 2,3. La meva infraestructura encara no s'ho creu.

Per Marc Molas·12 de maig del 2026·10 min de lectura

McKinsey acaba de publicar la seva enquesta anual sobre maduresa de la confiança en IA, aquest cop emmarcada com l'era agèntica. Unes 500 organitzacions enquestades entre desembre de 2025 i gener de 2026. Puntuació mitjana de maduresa: 2,3 sobre 5, lleugerament per sobre del 2,0 de l'any anterior. Un 62% experimenta amb agents, un 23% els escala a algun lloc. I el titular que m'interessa de debò: gairebé dos terços dels enquestats citen seguretat i risc com la primera barrera per escalar IA agèntica, per davant fins i tot de la incertesa regulatòria.

Aquesta xifra és la que hauria d'aterrar en qualsevol roadmap de plataforma aquest trimestre. Des d'on jo treballo — DevOps i infraestructura per a empreses que han de defensar la seva pila davant d'un regulador — el missatge de l'informe no és optimista. És una llista de coses que encara no estan muntades sota les diapositives bones de la keynote.

L'enquadrament de McKinsey: la confiança ja no és compliment, és valor de negoci

L'angle d'aquest any és deliberat. McKinsey diu que la influència percebuda d'alguns marcs regulatoris ha baixat i que les empreses passen d'una motivació compliance-led a una de value-driven. Tradueixo: els directius volen parar de veure la governança de la IA com un cost obligat i començar a veure-la com una palanca de revenue.

Em sembla bé com a marc de discurs. Em sembla tòxic com a marc operatiu si no entens què hi ha sota. La part que cita l'informe — que les organitzacions amb més de 25 milions de dòlars invertits en responsible AI tenen impactes d'EBIT superiors al 5% — no és perquè la governança "afegeixi valor" per art de màgia. És perquè les empreses que han posat aquests diners també han construït:

Pipelines d'avaluació amb golden sets versionats.
Atribució de cost per agent i per ruta.
Catàlegs d'eines amb scopes i quotes per agent.
Un equip de plataforma de IA amb on-call propi.
Lineage de prompts, models, embeddings, retrieval i decisions.

Si el teu CFO veu el número del 5% i dedueix que la governança paga, perfecte. Però que ningú confongui la conclusió: el que paga és la infraestructura. La governança és el que la fa defensable. Sense la primera no tens producte; sense la segona no tens permís d'explotació.

El 23% que "escala agents" és més petit del que sembla

L'altra xifra que circularà a moltes presentacions de comitè aquest mes és que el 23% de les empreses ja escalen agents en algun lloc. Llegit literalment, és una fita. Llegit com a enginyer que ha d'estabilitzar aquests sistemes, és una pregunta:

Escalats com? Amb quins SLOs? Sota quina classificació de risc? Amb quin pla d'incident?

L'informe és prou honest per dir que només al voltant d'un terç de les organitzacions reporten nivells de maduresa de 3 o superior en governança, estratègia i governança específica d'agents. La distància entre "23% escala agents" i "33% té governança de nivell 3" és exactament l'espai on viuran els pròxims incidents d'IA que sortiran a premsa.

En entorns regulats — banca, salut, energia, sector públic — aquesta distància no és un risc teòric. És un gap que un supervisor pot tancar amb una requisitòria. La pregunta que jo li faig a qualsevol equip que vulgui escalar agents en aquests sectors és la mateixa que faria un examinador del BCE o del OCC: ensenya'm les proves.

El 65% versus el 23%: la diferència és human-in-the-loop ben fet

Una de les dades més útils de l'informe és la bretxa entre high performers i la resta en validació humana: un 65% dels líders tenen processos definits de human-in-the-loop, contra un 23% a la cua. Aquí l'informe descriu correctament un fenomen que jo veig cada setmana a auditories tècniques: la diferència entre un sistema d'IA que aguanta una revisió interna i un que no és, gairebé sempre, el rigor de la capa humana, no la qualitat del model.

Però human-in-the-loop és una etiqueta que tapa quatre dissenys molt diferents:

HITL d'aprovació explícita — l'agent proposa, l'humà signa. És el patró que un regulador entén sense traduccions. Lent, però defensable.
HITL per excepció — l'agent decideix amb autonomia per sota d'un llindar de confiança, l'humà entra quan se supera. Requereix un confidence estimator calibrat. Molts equips utilitzen aquí la probabilitat del logit del model com a proxy, i no ho és. Calibreu o moriu.
HITL post-hoc — l'humà revisa una mostra estadística després del fet. Útil per a drift detection, insuficient com a control en sectors regulats.
HITL teatral — hi ha un humà al workflow, però el seu rol real és prémer aprovar en lots de 200 perquè la cua avança massa ràpid. Això no és governança, és absolució amb teclat. Apareixerà a la primera auditoria seriosa.

Quan parlem amb un client del 65%, gairebé sempre fa servir una barreja calibrada de l'1 i el 2 amb un mostreig estadístic del 3. Quan parlem amb un del 23%, gairebé sempre està al 4 sense saber-ho. Aquesta és la diferència real, i és arquitectònica abans que cultural. Hi ha un capítol llarg que ja he escrit sobre això que el meu jo del passat ha de continuar predicant.

"Fer la cosa equivocada" és un problema nou per al runbook

McKinsey introdueix una distinció que val la pena robar tal qual: en l'era agèntica les empreses ja no s'han de preocupar només per sistemes que diuen la cosa equivocada, sinó per sistemes que fan la cosa equivocada — que prenen accions no desitjades, fan mal ús d'eines o operen fora de les guardrails.

Aquest canvi és el que trenca la majoria dels runbooks que veig a clients que venen de l'era chatbot. Tota la disciplina d'observabilitat construïda al voltant de latència, error rate, throughput segueix sent necessària, però no és suficient. Cal un segon eix de monitorització:

Inventari d'eines disponibles per agent, amb scopes, rate limits i destinacions permeses. Si l'agent A pot tocar Salesforce, l'agent B no l'hauria de poder fer servir transitivament via delegation.
Quotes de cost i d'acció per agent i per finestra de temps. Un bucle infinit d'un agent que crida una API externa és un incident de finance abans que un de SRE.
Alarmes de comportament, no només d'error: l'agent que fins ahir feia una cosa i avui en fa una altra contra dades reals — encara que tècnicament no falli — és la senyal d'incident pròpia d'aquesta era.
Audit trail signat de cada acció d'eina executada, no només dels missatges del model. En un entorn regulat, qui ha fet què contra el meu sistema de registre és la pregunta de l'examinador, no què ha dit el LLM.

Si la teva pila no genera aquest segon flux, no estàs corrint agents en producció. Estàs corrent una demo amb permisos elevats. La distància entre les dues coses la pagaràs amb un incident, amb un titular o amb una multa, en aquest ordre.

Què canvia exactament en un entorn regulat

L'informe parla de l'EU AI Act i de l'horitzó de tres anys fins al desplegament complet. Cita correctament que un enfocament conservador — anticipar estàndards probables sobre supervisió humana, protecció de dades i equitat — ajuda a les empreses a anar per davant. Subscric. I afegeixo, des de l'enginyeria, què significa "anar per davant" quan la regulació tot just s'està concretant:

Classificació de risc del sistema, no del model. La majoria d'equips classifica el risc del LLM. El que el regulador vol classificar és el sistema sociotècnic complet: model + retrieval + eines + flux humà + dades. Sense aquest mapa, no pots ni començar a respondre l'Article 9 de l'AI Act.
Versionat conjunt de model, prompt i índex de retrieval. Un canvi en qualsevol dels tres ha de produir un artifact immutable, signat i traçable. Si versiones el model però no l'índex de retrieval, no pots reproduir una decisió de fa sis mesos sota una citació judicial. Això ja no és una preferència d'enginyeria, és un requisit.
Polítiques d'aïllament de dades aplicades a la sortida del retrieval, no només a l'entrada. La major part de fugues que veig en pilots regulats venen del retrieval recuperant més del compte i el model recitant-ho amb confiança. La política s'ha d'aplicar abans que el context arribi al model, no després.
Gates de desplegament amb prova. Un push d'un nou prompt a producció hauria de passar una bateria mínima de evals automatitzades — alineació, biaix, fugues, comportament d'eines — abans de tocar trànsit real. La idea de proof-carrying deployment deixa de ser acadèmica quan el supervisor et demana evidència del que vas validar abans del canvi.
Pla de retirada controlada. Cada agent en producció hauria de tenir un kill switch documentat, provat i d'execució mesurada en minuts. No "el podem despublicar al pròxim sprint". Minuts. En un entorn regulat, l'opció de no actuar és sovint més segura que actuar; el teu sistema ha de saber-ho fer.

Cap d'aquestes cinc coses surt gratis amb cap plataforma agèntica que hagi vist al mercat aquest any. Totes cinc són feina d'arquitectura pròpia. McKinsey les ven com a arquitectura de governança verificable; jo prefereixo dir-ne runbook que un advocat pot signar.

El biaix de l'informe: optimista per construcció

Un avís sobre les dades. L'enquesta de McKinsey la responen, per definició, perfils que ja tenen responsabilitat directa o expertesa en governança, gestió de risc o decisions d'inversió en IA. És una mostra autoseleccionada cap a les empreses que tenen aquestes funcions definides. La realitat al mercat mitjà és pitjor que la que reporta l'informe — no perquè McKinsey enganyi, sinó perquè les empreses sense un AI risk officer no responen aquest tipus d'enquestes i, per tant, no apareixen al numerador ni al denominador.

Si la teva organització no té algú responsable de respondre aquesta enquesta, el teu nivell de maduresa real probablement no és 2,3. És més a prop d'1, i la primera tasca no és pujar a 3; és construir el rol que permet mesurar-ho amb honestedat.

Què posaria al meu propi roadmap aquest trimestre

Si haig de traduir l'informe a accions concretes per a un equip de plataforma en un sector regulat, faria això abans del proper board update:

Inventari real d'agents en producció, no només els que el màrqueting anomena agents. Comptant cron jobs, webhooks i scripts que criden un LLM amb permisos elevats.
Una sola taula que respongui qui pot fer què: agent, eines, scopes, dades accessibles, humà responsable, mètriques de comportament. Si no cap en una taula, no la pots defensar.
Pressupost explícit de governança: persones, eines, evals, plataforma. L'informe diu que els que inverteixen >25M$ veuen retorn. La teva xifra no serà aquesta, però el principi sí: la governança que no té pressupost és teatre.
Un exercici de kill switch per agent crític, cronometrat. Si triga més de deu minuts, no el tens.
Una conversa adulta amb riscos i complimentadors. La maduresa de governança creix quan enginyeria, risc i compliment comparteixen vocabulari. L'informe identifica correctament aquesta bretxa com la barrera primària per a moltes empreses; el remei és cultural i organitzatiu abans que tècnic.

La línia que dibuixo

L'enquesta de McKinsey té raó en l'observació central: la IA agèntica trasllada el problema de dir a fer, i això canvia el tipus de governança que necessites tenir muntada per posar res en producció. La meva pregunta no és si el sector global és més madur (sí, una mica) o si el risc puja (clarament). La meva pregunta és si, al teu sistema concret, un examinador podria demanar el log d'accions, el lineage de la decisió, l'historial de validació humana i el resultat de l'última eval prèvia al desplegament — i tu podries posar-li tots quatre artefactes sobre la taula dins de la mateixa hora.

Si la resposta és sí, ets al 33% de maduresa real i pots començar a parlar de valor de negoci. Si la resposta és no, el 2,3 mitjà de l'informe encara és aspiracional per a tu, independentment del que digui la diapositiva del comitè.

Les empreses que guanyaran l'era agèntica no seran les que escalin agents més de pressa. Seran aquelles que, quan el regulador, l'auditor o l'investigador d'incidents apareguin, puguin obrir el runbook i passar de pàgina sense apartar la mirada.

Fonts:

McKinsey & Company, State of AI trust in 2026: Shifting to the agentic era, abril de 2026. mckinsey.com
McKinsey & Company, Trust in the age of agents — Agentic AI governance for autonomous systems. mckinsey.com
McKinsey & Company, Deploying agentic AI with safety and security: A playbook for technology leaders. mckinsey.com

Posant agents d'IA en producció sota un regulador real i no segur que el teu runbook aguanti la primera auditoria? Parla amb un CTO — t'ajudem a separar la maduresa real de la diapositiva.

McKinsey 2026: la confiança en IA puja a 2,3. La meva infraestructura encara no s'ho creu.

L'enquadrament de McKinsey: la confiança ja no és compliment, és valor de negoci

El 23% que "escala agents" és més petit del que sembla

El 65% versus el 23%: la diferència és human-in-the-loop ben fet

"Fer la cosa equivocada" és un problema nou per al runbook

Què canvia exactament en un entorn regulat

El biaix de l'informe: optimista per construcció

Què posaria al meu propi roadmap aquest trimestre

La línia que dibuixo

Articles Relacionats

Google Cloud Next 2026: 200.000 Milions de Capex No Compren Maduresa de Producció

El Solo Operator de Coinbase: On Funciona el One-Man Product i On Es Trenca

53% de Recall: Per Què el Mateix AIOps de Microsoft Confirma que l'Enginyer Segueix Sent Imprescindible

Preparat per construir el teu equip d'enginyeria?