Desafios

McKinsey 2026: a confiança em IA sobe para 2,3. A minha infraestrutura ainda não acredita.

Por Marc Molas·12 de maio de 2026·10 min de leitura

A McKinsey acaba de publicar o seu inquérito anual sobre maturidade de confiança em IA, desta vez enquadrado como a era agêntica. Cerca de 500 organizações inquiridas entre dezembro de 2025 e janeiro de 2026. Pontuação média de maturidade: 2,3 em 5, ligeiramente acima do 2,0 do ano anterior. 62% experimentam com agentes, 23% escalam-nos em algum lado. E o título que me interessa de verdade: quase dois terços dos inquiridos citam segurança e risco como primeira barreira para escalar IA agêntica, à frente até da incerteza regulatória.

Esse número é o que devia aterrar em qualquer roadmap de plataforma este trimestre. De onde trabalho — DevOps e infraestrutura para empresas que têm de defender a sua pilha à frente de um regulador — a mensagem do relatório não é otimista. É uma lista de coisas que ainda não estão montadas por baixo dos bons slides da keynote.

O enquadramento da McKinsey: a confiança já não é compliance, é valor de negócio

O ângulo deste ano é deliberado. A McKinsey diz que a influência percebida de alguns frameworks regulatórios desceu e que as empresas passam de uma motivação compliance-led para uma value-driven. Traduzo: os executivos querem deixar de ver a governança da IA como um custo obrigatório e começar a vê-la como uma alavanca de revenue.

Parece-me bem como enquadramento de discurso. Parece-me tóxico como enquadramento operacional se não percebes o que está por baixo. A parte que o relatório cita — que as organizações com mais de 25 milhões de dólares investidos em responsible AI têm impactos de EBIT superiores a 5% — não é porque a governança "acrescente valor" por magia. É porque as empresas que puseram esse dinheiro também construíram:

Pipelines de avaliação com golden sets versionados.
Atribuição de custo por agente e por rota.
Catálogos de ferramentas com scopes e quotas por agente.
Uma equipa de plataforma de IA com on-call próprio.
Lineage de prompts, modelos, embeddings, retrieval e decisões.

Se o teu CFO vê o número dos 5% e conclui que a governança paga, perfeito. Mas que ninguém confunda a conclusão: o que paga é a infraestrutura. A governança é o que a torna defensável. Sem a primeira não tens produto; sem a segunda não tens licença de exploração.

Os 23% que "escalam agentes" são mais pequenos do que parecem

A outra cifra que vai circular em muitas apresentações de comité este mês é que 23% das empresas já escalam agentes em algum lado. Lido à letra, é um marco. Lido como engenheiro que tem de estabilizar esses sistemas, é uma pergunta:

Escalados como? Com que SLOs? Sob que classificação de risco? Com que plano de incidente?

O relatório é suficientemente honesto para dizer que apenas cerca de um terço das organizações reporta níveis de maturidade de 3 ou superior em governança, estratégia e governança específica de agentes. A distância entre "23% escala agentes" e "33% tem governança de nível 3" é exatamente o espaço onde viverão os próximos incidentes de IA que sairão na imprensa.

Em ambientes regulados — banca, saúde, energia, setor público — essa distância não é um risco teórico. É um gap que um supervisor pode fechar com uma requisitória. A pergunta que faço a qualquer equipa que queira escalar agentes nesses setores é a mesma que faria um examinador do BCE ou do OCC: mostra-me as provas.

Os 65% versus os 23%: a diferença é human-in-the-loop bem feito

Um dos dados mais úteis do relatório é o fosso entre high performers e o resto na validação humana: 65% dos líderes têm processos definidos de human-in-the-loop, contra 23% na cauda. Aqui o relatório descreve corretamente um fenómeno que vejo todas as semanas em auditorias técnicas: a diferença entre um sistema de IA que aguenta uma revisão interna e um que não aguenta é, quase sempre, o rigor da camada humana, não a qualidade do modelo.

Mas human-in-the-loop é uma etiqueta que esconde quatro desenhos muito diferentes:

HITL de aprovação explícita — o agente propõe, o humano assina. É o padrão que um regulador percebe sem traduções. Lento, mas defensável.
HITL por exceção — o agente decide com autonomia abaixo de um limiar de confiança, o humano entra quando é ultrapassado. Requer um confidence estimator calibrado. Muitas equipas usam aqui a probabilidade bruta do logit como proxy, e não o é. Calibra ou morre.
HITL post-hoc — o humano revê uma amostra estatística depois do facto. Útil para drift detection, insuficiente como controlo primário em setores regulados.
HITL teatral — há um humano no workflow, mas o seu papel real é carregar em aprovar em lotes de 200 porque a fila avança demasiado rápido. Isto não é governança, é absolvição com teclado. Aparece na primeira auditoria a sério.

Quando falamos com um cliente dos 65%, quase sempre usa uma mistura calibrada de 1 e 2 com uma amostragem estatística do 3. Quando falamos com um dos 23%, quase sempre está no 4 sem o saber. Essa é a diferença real, e é arquitetural antes de ser cultural. Há um capítulo longo que já escrevi sobre isto que o meu eu do passado tem de continuar a pregar.

"Fazer a coisa errada" é um problema novo para o runbook

A McKinsey introduz uma distinção que vale a pena roubar tal como está: na era agêntica as empresas já não se têm de preocupar apenas com sistemas que dizem a coisa errada, mas com sistemas que fazem a coisa errada — que tomam ações não desejadas, fazem mau uso de ferramentas ou operam fora das guardrails.

Essa mudança é o que quebra a maioria dos runbooks que vejo em clientes que vêm da era chatbot. Toda a disciplina de observabilidade construída em torno de latência, error rate, throughput continua a ser necessária, mas não é suficiente. É preciso um segundo eixo de monitorização:

Inventário de ferramentas disponíveis por agente, com scopes, rate limits e destinos permitidos. Se o agente A pode tocar no Salesforce, o agente B não devia conseguir usá-lo transitivamente via delegation.
Quotas de custo e de ação por agente e por janela temporal. Um loop infinito de um agente que chama uma API externa é um incidente de finance antes de ser um de SRE.
Alarmes de comportamento, não só de erro: o agente que até ontem fazia uma coisa e hoje faz outra contra dados reais — mesmo que tecnicamente não falhe — é o sinal de incidente próprio desta era.
Audit trail assinado de cada ação de ferramenta executada, não só das mensagens do modelo. Em ambiente regulado, quem fez o quê contra o meu sistema de registo é a pergunta do examinador, não o que disse o LLM.

Se a tua pilha não gera esse segundo fluxo, não estás a correr agentes em produção. Estás a correr uma demo com permissões elevadas. A distância entre as duas coisas vais pagá-la com um incidente, com um título de jornal ou com uma multa, por esta ordem.

O que muda exatamente num ambiente regulado

O relatório fala do EU AI Act e do horizonte de três anos até ao desdobramento completo. Cita corretamente que uma abordagem conservadora — antecipar standards prováveis sobre supervisão humana, proteção de dados e equidade — ajuda as empresas a andar à frente. Subscrevo. E acrescento, da engenharia, o que significa "andar à frente" enquanto a regulação ainda se está a concretizar:

Classificação de risco do sistema, não do modelo. A maioria das equipas classifica o risco do LLM. O que o regulador quer classificar é o sistema sociotécnico completo: modelo + retrieval + ferramentas + fluxo humano + dados. Sem esse mapa, nem sequer podes começar a responder ao Artigo 9 do AI Act.
Versionamento conjunto de modelo, prompt e índice de retrieval. Uma alteração em qualquer um dos três tem de produzir um artifact imutável, assinado e rastreável. Se versionas o modelo mas não o índice de retrieval, não podes reproduzir uma decisão de há seis meses sob uma citação judicial. Já não é uma preferência de engenharia, é um requisito.
Políticas de isolamento de dados aplicadas à saída do retrieval, não só à entrada. A maior parte das fugas que vejo em pilotos regulados vem do retrieval a recuperar mais do que devia e do modelo a recitá-lo com confiança. A política aplica-se antes do contexto chegar ao modelo, não depois.
Gates de implantação com prova. Um push de um novo prompt para produção devia passar uma bateria mínima de evals automatizadas — alinhamento, viés, fugas, comportamento de ferramentas — antes de tocar tráfego real. A ideia de proof-carrying deployment deixa de ser académica quando o supervisor te pede evidência do que validaste antes da alteração.
Plano de retirada controlada. Cada agente em produção devia ter um kill switch documentado, testado e de execução medida em minutos. Não "podemos descontinuá-lo no próximo sprint". Minutos. Em ambiente regulado, a opção de não agir é muitas vezes mais segura do que agir; o teu sistema tem de saber fazê-lo.

Nenhuma destas cinco coisas vem de graça com nenhuma plataforma agêntica que tenha visto no mercado este ano. As cinco são trabalho de arquitetura próprio. A McKinsey vende-as como arquitetura de governança verificável; eu prefiro chamar-lhes runbook que um advogado pode assinar.

O viés do relatório: otimista por construção

Um aviso sobre os dados. O inquérito da McKinsey é respondido, por definição, por perfis que já têm responsabilidade direta ou expertise em governança, gestão de risco ou decisões de investimento em IA. É uma amostra auto-selecionada para as empresas que têm essas funções definidas. A realidade no mid-market é pior do que a que o relatório reporta — não porque a McKinsey engane, mas porque as empresas sem um AI risk officer não respondem a este tipo de inquéritos e, por isso, não aparecem nem no numerador nem no denominador.

Se a tua organização não tem alguém responsável por responder a este inquérito, o teu nível de maturidade real provavelmente não é 2,3. Está mais perto de 1, e a primeira tarefa não é subir para 3; é construir o papel que permite medi-lo com honestidade.

O que poria no meu próprio roadmap este trimestre

Se tiver de traduzir o relatório em ações concretas para uma equipa de plataforma num setor regulado, faria isto antes do próximo board update:

Inventário real de agentes em produção, não só os que o marketing chama agentes. A contar cron jobs, webhooks e scripts que chamam um LLM com permissões elevadas.
Uma só tabela que responda a quem pode fazer o quê: agente, ferramentas, scopes, dados acessíveis, humano responsável, métricas de comportamento. Se não cabe numa tabela, não a podes defender.
Orçamento explícito de governança: pessoas, ferramentas, evals, plataforma. O relatório diz que quem investe mais de 25M$ vê retorno. O teu número não será esse, mas o princípio sim: a governança que não tem orçamento é teatro.
Um exercício de kill switch por agente crítico, cronometrado. Se demora mais de dez minutos, não o tens.
Uma conversa adulta com risco e compliance. A maturidade de governança cresce quando engenharia, risco e compliance partilham vocabulário. O relatório identifica corretamente esse fosso como barreira primária para muitas empresas; o remédio é cultural e organizativo antes de ser técnico.

A linha que desenho

O inquérito da McKinsey tem razão na observação central: a IA agêntica desloca o problema de dizer para fazer, e isso muda o tipo de governança que precisas de ter montada para pôr o que quer que seja em produção. A minha pergunta não é se o setor global está mais maduro (sim, um pouco) ou se o risco sobe (claramente). A minha pergunta é se, no teu sistema concreto, um examinador podia pedir o log de ações, o lineage da decisão, o histórico de validação humana e o resultado da última eval antes da implantação — e tu podias pôr-lhe os quatro artefactos em cima da mesa dentro da mesma hora.

Se a resposta é sim, estás nos 33% com maturidade real e podes começar a falar de valor de negócio. Se a resposta é não, o 2,3 médio do relatório continua a ser aspiracional para ti, independentemente do que diga o slide do comité.

As empresas que vão ganhar a era agêntica não serão as que escalam agentes mais depressa. Serão aquelas que, quando o regulador, o auditor ou o investigador de incidentes aparecerem, conseguem abrir o runbook e virar a página sem desviar o olhar.

Fontes:

McKinsey & Company, State of AI trust in 2026: Shifting to the agentic era, abril de 2026. mckinsey.com
McKinsey & Company, Trust in the age of agents — Agentic AI governance for autonomous systems. mckinsey.com
McKinsey & Company, Deploying agentic AI with safety and security: A playbook for technology leaders. mckinsey.com

A pôr agentes de IA em produção sob um regulador real e não tens a certeza de que o teu runbook aguenta a primeira auditoria? Fala com um CTO — ajudamos-te a separar a maturidade real do slide.

McKinsey 2026: a confiança em IA sobe para 2,3. A minha infraestrutura ainda não acredita.

O enquadramento da McKinsey: a confiança já não é compliance, é valor de negócio

Os 23% que "escalam agentes" são mais pequenos do que parecem

Os 65% versus os 23%: a diferença é human-in-the-loop bem feito

"Fazer a coisa errada" é um problema novo para o runbook

O que muda exatamente num ambiente regulado

O viés do relatório: otimista por construção

O que poria no meu próprio roadmap este trimestre

A linha que desenho

Artigos Relacionados

Google Cloud Next 2026: 200 Mil Milhões de Capex Não Compram Maturidade de Produção

O Solo Operator da Coinbase: Onde Funciona o One-Man Product e Onde Se Quebra

53% de Recall: Por Que o Próprio AIOps da Microsoft Confirma que o Engenheiro Continua a Ser Imprescindível

Pronto para construir a sua equipa de engenharia?