Retos

McKinsey 2026: la confianza en IA sube a 2,3. Mi infraestructura aún no se lo cree.

Por Marc Molas·12 de mayo de 2026·10 min de lectura

McKinsey acaba de publicar su encuesta anual sobre madurez de confianza en IA, esta vez enmarcada como la era agéntica. Unas 500 organizaciones encuestadas entre diciembre de 2025 y enero de 2026. Puntuación media de madurez: 2,3 sobre 5, ligeramente por encima del 2,0 del año anterior. Un 62% experimenta con agentes, un 23% los escala en algún sitio. Y el titular que me interesa de verdad: casi dos tercios de los encuestados citan seguridad y riesgo como primera barrera para escalar IA agéntica, por delante incluso de la incertidumbre regulatoria.

Esa cifra es la que debería aterrizar en cualquier roadmap de plataforma este trimestre. Desde donde trabajo — DevOps e infraestructura para empresas que tienen que defender su pila ante un regulador — el mensaje del informe no es optimista. Es una lista de cosas que aún no están montadas debajo de las buenas diapositivas de la keynote.

El encuadre de McKinsey: la confianza ya no es compliance, es valor de negocio

El ángulo de este año es deliberado. McKinsey dice que la influencia percibida de algunos marcos regulatorios ha bajado y que las empresas pasan de una motivación compliance-led a una value-driven. Traduzco: los directivos quieren dejar de ver la gobernanza de la IA como un coste obligado y empezar a verla como una palanca de revenue.

Me parece bien como marco de discurso. Me parece tóxico como marco operativo si no entiendes qué hay debajo. La parte que cita el informe — que las organizaciones con más de 25 millones de dólares invertidos en responsible AI tienen impactos de EBIT superiores al 5% — no es porque la gobernanza "añada valor" por arte de magia. Es porque las empresas que han puesto ese dinero también han construido:

Pipelines de evaluación con golden sets versionados.
Atribución de coste por agente y por ruta.
Catálogos de herramientas con scopes y cuotas por agente.
Un equipo de plataforma de IA con on-call propio.
Lineage de prompts, modelos, embeddings, retrieval y decisiones.

Si tu CFO ve el número del 5% y deduce que la gobernanza paga, perfecto. Pero que nadie confunda la conclusión: lo que paga es la infraestructura. La gobernanza es lo que la hace defendible. Sin la primera no tienes producto; sin la segunda no tienes permiso de explotación.

El 23% que "escala agentes" es más pequeño de lo que parece

La otra cifra que circulará en muchas presentaciones de comité este mes es que el 23% de las empresas ya escala agentes en algún sitio. Leído literalmente, es un hito. Leído como ingeniero que tiene que estabilizar esos sistemas, es una pregunta:

¿Escalados cómo? ¿Con qué SLOs? ¿Bajo qué clasificación de riesgo? ¿Con qué plan de incidente?

El informe es bastante honesto al decir que solo alrededor de un tercio de las organizaciones reportan niveles de madurez de 3 o superior en gobernanza, estrategia y gobernanza específica de agentes. La distancia entre "23% escala agentes" y "33% tiene gobernanza de nivel 3" es exactamente el espacio donde vivirán los próximos incidentes de IA que aparecerán en prensa.

En entornos regulados — banca, salud, energía, sector público — esa distancia no es un riesgo teórico. Es un gap que un supervisor puede cerrar con un requerimiento. La pregunta que le hago a cualquier equipo que quiera escalar agentes en esos sectores es la misma que haría un examinador del BCE o del OCC: enséñame las pruebas.

El 65% frente al 23%: la diferencia es human-in-the-loop bien hecho

Uno de los datos más útiles del informe es la brecha entre high performers y el resto en validación humana: un 65% de los líderes tiene procesos definidos de human-in-the-loop, frente a un 23% en la cola. Aquí el informe describe correctamente un fenómeno que veo cada semana en auditorías técnicas: la diferencia entre un sistema de IA que aguanta una revisión interna y uno que no es, casi siempre, el rigor de la capa humana, no la calidad del modelo.

Pero human-in-the-loop es una etiqueta que esconde cuatro diseños muy distintos:

HITL de aprobación explícita — el agente propone, el humano firma. Es el patrón que un regulador entiende sin traducciones. Lento, pero defendible.
HITL por excepción — el agente decide con autonomía por debajo de un umbral de confianza, el humano entra cuando se supera. Requiere un confidence estimator calibrado. Muchos equipos usan aquí la probabilidad del logit del modelo como proxy, y no lo es. Calibra o muere.
HITL post-hoc — el humano revisa una muestra estadística después del hecho. Útil para drift detection, insuficiente como control en sectores regulados.
HITL teatral — hay un humano en el workflow, pero su rol real es pulsar aprobar en lotes de 200 porque la cola avanza demasiado rápido. Eso no es gobernanza, es absolución con teclado. Aparecerá en la primera auditoría seria.

Cuando hablamos con un cliente del 65%, casi siempre usa una mezcla calibrada del 1 y el 2 con un muestreo estadístico del 3. Cuando hablamos con uno del 23%, casi siempre está en el 4 sin saberlo. Esa es la diferencia real, y es arquitectónica antes que cultural. Hay un capítulo largo que ya he escrito al respecto que mi yo del pasado tiene que seguir predicando.

"Hacer la cosa equivocada" es un problema nuevo para el runbook

McKinsey introduce una distinción que vale la pena robar tal cual: en la era agéntica las empresas ya no se tienen que preocupar solo por sistemas que dicen la cosa equivocada, sino por sistemas que hacen la cosa equivocada — que toman acciones no deseadas, hacen mal uso de herramientas u operan fuera de las guardrails.

Ese cambio es el que rompe la mayoría de los runbooks que veo en clientes que vienen de la era chatbot. Toda la disciplina de observabilidad construida en torno a latencia, error rate, throughput sigue siendo necesaria, pero no es suficiente. Hace falta un segundo eje de monitorización:

Inventario de herramientas disponibles por agente, con scopes, rate limits y destinos permitidos. Si el agente A puede tocar Salesforce, el agente B no debería poder usarlo transitivamente vía delegation.
Cuotas de coste y de acción por agente y por ventana de tiempo. Un bucle infinito de un agente que llama una API externa es un incidente de finance antes que uno de SRE.
Alarmas de comportamiento, no solo de error: el agente que hasta ayer hacía una cosa y hoy hace otra contra datos reales — aunque técnicamente no falle — es la señal de incidente propia de esta era.
Audit trail firmado de cada acción de herramienta ejecutada, no solo de los mensajes del modelo. En un entorno regulado, quién ha hecho qué contra mi sistema de registro es la pregunta del examinador, no qué ha dicho el LLM.

Si tu pila no genera ese segundo flujo, no estás corriendo agentes en producción. Estás corriendo una demo con permisos elevados. La distancia entre las dos cosas la pagarás con un incidente, con un titular o con una multa, en ese orden.

Qué cambia exactamente en un entorno regulado

El informe habla de la EU AI Act y del horizonte de tres años hasta el despliegue completo. Cita correctamente que un enfoque conservador — anticipar estándares probables sobre supervisión humana, protección de datos y equidad — ayuda a las empresas a ir por delante. Suscribo. Y añado, desde la ingeniería, qué significa "ir por delante" cuando la regulación apenas se está concretando:

Clasificación de riesgo del sistema, no del modelo. La mayoría de equipos clasifica el riesgo del LLM. Lo que el regulador quiere clasificar es el sistema sociotécnico completo: modelo + retrieval + herramientas + flujo humano + datos. Sin ese mapa, no puedes ni empezar a responder el Artículo 9 del AI Act.
Versionado conjunto de modelo, prompt e índice de retrieval. Un cambio en cualquiera de los tres tiene que producir un artifact inmutable, firmado y trazable. Si versionas el modelo pero no el índice de retrieval, no puedes reproducir una decisión de hace seis meses bajo una citación judicial. Esto ya no es una preferencia de ingeniería, es un requisito.
Políticas de aislamiento de datos aplicadas a la salida del retrieval, no solo a la entrada. La mayor parte de fugas que veo en pilotos regulados vienen del retrieval recuperando más de la cuenta y el modelo recitándolo con confianza. La política se aplica antes de que el contexto llegue al modelo, no después.
Gates de despliegue con prueba. Un push de un nuevo prompt a producción debería pasar una batería mínima de evals automatizadas — alineación, sesgo, fugas, comportamiento de herramientas — antes de tocar tráfico real. La idea de proof-carrying deployment deja de ser académica cuando el supervisor te pide evidencia de lo que validaste antes del cambio.
Plan de retirada controlada. Cada agente en producción debería tener un kill switch documentado, probado y de ejecución medida en minutos. No "lo podemos despublicar en el próximo sprint". Minutos. En un entorno regulado, la opción de no actuar es a menudo más segura que actuar; tu sistema tiene que saber hacerlo.

Ninguna de estas cinco cosas sale gratis con ninguna plataforma agéntica que haya visto en el mercado este año. Las cinco son trabajo de arquitectura propio. McKinsey las vende como arquitectura de gobernanza verificable; yo prefiero llamarlas runbook que un abogado puede firmar.

El sesgo del informe: optimista por construcción

Un aviso sobre los datos. La encuesta de McKinsey la responden, por definición, perfiles que ya tienen responsabilidad directa o experiencia en gobernanza, gestión de riesgo o decisiones de inversión en IA. Es una muestra autoseleccionada hacia las empresas que tienen esas funciones definidas. La realidad en el mercado medio es peor que la que reporta el informe — no porque McKinsey engañe, sino porque las empresas sin un AI risk officer no responden este tipo de encuestas y, por tanto, no aparecen ni en el numerador ni en el denominador.

Si tu organización no tiene a alguien responsable de responder esta encuesta, tu nivel de madurez real probablemente no es 2,3. Está más cerca de 1, y la primera tarea no es subir a 3; es construir el rol que permite medirlo con honestidad.

Qué pondría en mi propio roadmap este trimestre

Si tengo que traducir el informe a acciones concretas para un equipo de plataforma en un sector regulado, haría esto antes del próximo board update:

Inventario real de agentes en producción, no solo los que el marketing llama agentes. Contando cron jobs, webhooks y scripts que llaman a un LLM con permisos elevados.
Una sola tabla que responda quién puede hacer qué: agente, herramientas, scopes, datos accesibles, humano responsable, métricas de comportamiento. Si no cabe en una tabla, no la puedes defender.
Presupuesto explícito de gobernanza: personas, herramientas, evals, plataforma. El informe dice que los que invierten >25M$ ven retorno. Tu cifra no será esa, pero el principio sí: la gobernanza que no tiene presupuesto es teatro.
Un ejercicio de kill switch por agente crítico, cronometrado. Si tarda más de diez minutos, no lo tienes.
Una conversación adulta con riesgo y compliance. La madurez de gobernanza crece cuando ingeniería, riesgo y compliance comparten vocabulario. El informe identifica correctamente esa brecha como barrera primaria en muchas empresas; el remedio es cultural y organizativo antes que técnico.

La línea que dibujo

La encuesta de McKinsey tiene razón en la observación central: la IA agéntica traslada el problema de decir a hacer, y eso cambia el tipo de gobernanza que necesitas tener montada para poner algo en producción. Mi pregunta no es si el sector global es más maduro (sí, un poco) o si el riesgo sube (claramente). Mi pregunta es si, en tu sistema concreto, un examinador podría pedir el log de acciones, el lineage de la decisión, el historial de validación humana y el resultado de la última eval previa al despliegue — y tú podrías ponerle los cuatro artefactos sobre la mesa dentro de la misma hora.

Si la respuesta es sí, estás en el 33% con madurez real y puedes empezar a hablar de valor de negocio. Si la respuesta es no, el 2,3 medio del informe sigue siendo aspiracional para ti, independientemente de lo que diga la diapositiva del comité.

Las empresas que ganen la era agéntica no serán las que escalen agentes más rápido. Serán aquellas que, cuando el regulador, el auditor o el investigador de incidentes aparezcan, puedan abrir el runbook y pasar de página sin apartar la mirada.

Fuentes:

McKinsey & Company, State of AI trust in 2026: Shifting to the agentic era, abril de 2026. mckinsey.com
McKinsey & Company, Trust in the age of agents — Agentic AI governance for autonomous systems. mckinsey.com
McKinsey & Company, Deploying agentic AI with safety and security: A playbook for technology leaders. mckinsey.com

¿Poniendo agentes de IA en producción bajo un regulador real y no estás seguro de si tu runbook aguantará la primera auditoría? Habla con un CTO — te ayudamos a separar la madurez real de la diapositiva.

McKinsey 2026: la confianza en IA sube a 2,3. Mi infraestructura aún no se lo cree.

El encuadre de McKinsey: la confianza ya no es compliance, es valor de negocio

El 23% que "escala agentes" es más pequeño de lo que parece

El 65% frente al 23%: la diferencia es human-in-the-loop bien hecho

"Hacer la cosa equivocada" es un problema nuevo para el runbook

Qué cambia exactamente en un entorno regulado

El sesgo del informe: optimista por construcción

Qué pondría en mi propio roadmap este trimestre

La línea que dibujo

Artículos Relacionados

Google Cloud Next 2026: 200.000 Millones de Capex No Compran Madurez de Producción

El Solo Operator de Coinbase: Dónde Funciona el One-Man Product y Dónde Se Rompe

53% de Recall: Por Qué el Propio AIOps de Microsoft Confirma que el Ingeniero Sigue Siendo Imprescindible

¿Listo para construir tu equipo de ingeniería?