Desafios

Segurança de IA Certificável: Portas de Deployment Com Prova para LLMs Que Usam Ferramentas

Por Marc Molas·13 de abril de 2026·11 min de leitura

Há um modo de falha específico nos LLMs modernos que usam ferramentas que não recebe atenção suficiente: os dados que o sistema gera não são estatisticamente independentes dos dados que o monitor vê depois. O LLM emite uma distribuição de tokens. O sistema amostra dela. Algumas amostras invocam ferramentas. As saídas das ferramentas regressam ao contexto. A próxima distribuição de tokens está condicionada nessas saídas. Tudo é adaptativo, dependente, recursivo.

O monitoring estatístico padrão assume observações independentes. A detecção de drift padrão assume uma distribuição de referência fixa. O testing A/B padrão assume que o teste não influencia os dados. Nenhuma destas assunções aguenta para um LLM a usar ferramentas em produção. O próprio comportamento do agente — e as respostas das ferramentas — muda a distribuição que o monitor está a observar.

O paper recente Certifiable AI Safety Theory (CAST): Convex-Analytic, Measure-Theoretic, and Proof-Carrying Deployment Gates for Tool-Using LLM Systems (Fradelos, fevereiro 2026) aborda isto directamente. A contribuição é um framework matemático para certificar a segurança exactamente desta classe de sistemas, usando monitoring estatístico anytime-valid (e-processos) que estão explicitamente desenhados para dados adaptativos e dependentes.

A matemática é densa. O padrão de engenharia é mais acessível. Vale a pena entendê-lo porque a alternativa — fingir que o problema da dependência não existe — é o modo de falha silencioso da maioria do monitoring actual de IA em produção.

Porque "Com Prova" Importa

A ideia central: em cada ponto de decisão — cada vez que o agente quer tomar uma acção, invocar uma ferramenta, emitir uma resposta — constrói-se um certificado mostrando que a acção pertence a um conjunto seguro. O runtime verifica o certificado em tempo polinomial. Se o certificado é válido, a acção procede. Se não é, o sistema ou recorre a um default seguro ("dummy output") ou projecta a acção para uma alternativa segura próxima ("convex repair").

Esta é a mesma ideia do código com prova no software de sistemas: o produtor de uma acção fornece um certificado que um verificador pode verificar barato. A confiança muda de "o produtor comporta-se bem" para "o certificado é válido".

Para sistemas de IA, isto é operacionalmente importante porque:

A verificação é mais barata do que o re-treino. Uma vez fixado o formato do certificado, verificar é rápido. Re-treinar um modelo para que seja mais seguro é caro e incerto.
O verificador pode ser confiado independentemente do modelo. Um verificador pequeno, simples, formalmente especificado pode ser confiado a um nível mais alto do que um modelo grande e opaco.
O fallback é principial. Quando o certificado falha, o sistema sabe falhar com segurança, ou emitindo uma saída dummy ou projectando para uma alternativa segura.

O Problema dos Dados Adaptativos

O movimento técnico central do paper é usar e-processos (um tipo específico de acumulador de evidência estatística baseado em supermartingales) para o monitoring. Os e-processos têm uma propriedade que os p-valores normais não têm: mantêm-se válidos sob stopping opcional e recolha de dados adaptativa.

Em termos simples: com testes estatísticos regulares, a validade do teste depende de te teres comprometido antecipadamente sobre quantos dados recolherás e o que vais testar. Se espreitas os dados e decides se continuar a recolher baseado no que viste, partiste as garantias do teste. Este é o problema "early stopping".

Para um sistema de IA em produção, não podes evitar o early stopping. Estás a monitorizar continuamente, vais agir sobre o monitoring (a alertar, throttling, a bloquear), e as tuas acções afectam os dados que o monitor observa. Os testes estatísticos regulares dão-te garantias que não aguentam neste regime.

Os e-processos aguentam. Dão validade uniforme no tempo: podes monitorizar continuamente, parar quando quiseres, e a garantia de falso positivo ainda se aplica. Esta é a base matemática que faz funcionar o monitoring contínuo de segurança de IA.

A implicação prática: se estás a usar detecção de drift baseada em p-valores num sistema de IA em produção, estás a operar fora do regime válido do método estatístico. Isto é algo a que quase ninguém está a prestar atenção em 2026, e é o tipo de erro que produz tanto falsa confiança (quando não morde) como falsos alarmes inexplicados (quando morde).

A Camada de Construção do Monitor

O paper especifica uma construção canónica do monitor com quatro componentes:

1. Logging de confiança

Cada input, cada saída do modelo, cada tool call, cada resposta de ferramenta é registado de uma maneira que o agente não consegue forjar. O log é o substrato para tudo o resto.

2. Aleatoriedade privada do monitor

O monitor usa números aleatórios a que o agente não tem acesso. Esta é a mesma ideia que manter secreta a seed de uma auditoria baseada em aleatoriedade do auditado. Impede que o agente jogue com o monitor antecipando o que o monitor vai verificar.

3. Shadow sampling

Para algumas verificações, o monitor amostra saídas adicionais do modelo com o mesmo prompt para estimar a distribuição de saída. Estas amostras sombra não chegam ao utilizador; existem apenas para caracterizar a distribuição de comportamento que o modelo está a produzir.

4. Re-execução de ferramentas

Para verificações que envolvem resultados de ferramentas, o monitor pode re-executar tool calls deterministicamente (ou num ambiente em sandbox) para verificar que a resposta era o que devia ter sido.

Estes quatro juntos dão ao monitor evidência independente suficiente para construir os certificados que o runtime requer. Nenhum deles é exótico; todos os quatro estão ao alcance de qualquer equipa que leva o monitoring a sério. A contribuição é especificar exactamente o que é necessário e porquê.

Composição Modular: Porque Importa

Uma dor de cabeça prática na segurança de IA é a composição. Podes certificar que dois componentes são seguros individualmente e ter um sistema composto não-seguro. O caso clássico: uma ferramenta que é segura chamar individualmente, chamada muitas vezes em rápida sucessão, pode produzir efeitos agregados não-seguros (denial-of-service contra um sistema downstream, escalation por chamadas repetidas, etc.).

O paper fornece um teorema de composição modular: sob condições específicas, os certificados de segurança dos componentes compõem-se num certificado de segurança para o sistema. As condições são reais e não-triviais, mas explícitas. Uma equipa a construir sistemas agênticos compostos pode verificar as condições e saber se a sua composição está no regime onde a segurança dos componentes implica a segurança do sistema.

O enquadramento honesto importa. O paper rotula isto como "um primeiro regime composicional" — significa um ponto de partida útil, não uma teoria completa de segurança composicional. As equipas de engenharia devem tratá-lo da mesma forma: útil para os casos que cobre, não uma garantia para os casos que não cobre.

O Orçamento Global de Risco

Uma contribuição subtil mas importante: um corolário que aloca um orçamento global de risco através dos tempos de decisão em runtime. Isto aborda o modo de falha "seguro por passo, inseguro em agregado".

Cada ponto de decisão tem uma pequena probabilidade de produzir uma acção insegura. Somado através de milhares ou milhões de decisões, a probabilidade agregada de pelo menos uma acção insegura torna-se grande. O paper fornece uma forma de alocar o orçamento global de risco através do calendário de decisões para que o agregado se mantenha limitado.

Na prática, isto significa estabelecer limiares de segurança por acção baseados em quantas acções esperas que o sistema tome, com tracking explícito do orçamento. Um sistema que toma um milhão de acções por dia e quer probabilidade agregada de acção insegura ≤1% precisa de um limiar por acção muito mais apertado do que um sistema que toma mil acções.

Este é o tipo de contabilidade que a maioria dos sistemas de IA em produção não faz explicitamente. Estabelecem um limiar por acção baseado na intuição e não verificam o agregado. CAST dá o framework para fazer isto correctamente.

Convex Repair: Quando o Certificado Falha

Quando uma acção falha a certificação, existem duas opções:

Fallback dummy: emite uma saída default segura. Conservadora, simples, frequentemente degrada a experiência do utilizador.
Convex repair: projecta a saída insegura para o ponto mais próximo no conjunto seguro. Requer que o conjunto seguro seja convexo e que a projecção seja tratável.

O paper fornece teoremas de projecção para a segurança em geometrias KL/Bregman e de transporte óptimo, com um caminho de tratabilidade explícito para a reparação baseada em transporte. A matemática diz: sob condições específicas, podes calcular uma acção que é "tão próxima quanto possível" da acção original insegura enquanto está dentro do conjunto seguro.

A conclusão de engenharia: quando desenhas o teu conjunto seguro, desenha-o convexo. Os conjuntos seguros convexos admitem projecção em tempo polinomial. Os conjuntos seguros não-convexos geralmente não. Esta é uma escolha de design que fazes quando especificas a política de segurança, e determina se o convex repair está sequer disponível.

O Que Significa para Equipas de IA em Produção

Três acções práticas para qualquer equipa a executar sistemas LLM com uso de ferramentas em produção:

1. Verifica a tua metodologia de monitoring

Se a tua detecção de drift ou monitoring de segurança usa métodos padrão baseados em p-valores sobre dados recolhidos adaptativamente, as garantias estatísticas não aguentam. Ou move-te para monitoring baseado em e-processos (a resposta certa) ou sê explícito que o teu monitoring é heurístico em vez de estatisticamente rigoroso (uma resposta intermédia defensável).

2. Especifica o conjunto seguro explicitamente

A frase "o modelo é seguro" não tem um significado preciso. "As saídas são membros do conjunto S" tem. Especifica S em código ou descrição formal. Depois podes verificar pertinência, projectar falhas em S e raciocinar sobre composição.

3. Conta o risco global

Se o teu sistema toma muitas acções, define limiares por acção baseados em orçamento de risco agregado, não em intuição por acção. A matemática não é difícil uma vez que decidiste o orçamento; a disciplina é decidir fazê-lo.

Onde CAST Não Se Aplica

O paper é explícito sobre o scope: não é uma teoria de robótica, não assume superinteligência, e está posicionado como "contenção e certificação finance-grade / scientific-computing-grade". É para leis de segurança explicitamente especificadas em sistemas LLM com uso de ferramentas.

Este é o regime onde vive a maioria do deployment de IA em produção em 2026. CAST está bem direccionado ao problema prático. As equipas a entregar agentes baseados em LLM que tocam ferramentas reais — a maior parte da IA agêntica em produção — deviam estar a ler este paper e a adaptar os padrões.

A alternativa é monitoring que está matematicamente errado nos dados que processa. Este é o tipo de erro que produz incidentes que ninguém consegue explicar a posteriori.

Fonte: Fradelos, G. Certifiable AI Safety Theory (CAST): Convex-Analytic, Measure-Theoretic, and Proof-Carrying Deployment Gates for Tool-Using LLM Systems (Genebra, 12 de fevereiro de 2026). SSRN 6307158.

A executar LLMs com uso de ferramentas em produção e queres monitoring que seja realmente estatisticamente válido para os dados que estás a recolher? Fala com um CTO sobre desplegar capacidade de engenharia nearshore que possa construir segurança certificável no runtime.