Construindo um Motor Jurídico de IA Conforme: Roteamento Multi-Modelo, RAG Jurídico e o Regulamento Europeu de IA na Prática
A maioria dos produtos de IA é construída escolhendo um modelo, escrevendo alguns prompts e lançando. Isso funciona para um chatbot. Não funciona quando o resultado tem peso legal, quando os dados são regulamentados e quando uma resposta errada não é simplesmente inútil — é potencialmente prejudicial.
Quando construímos o motor de IA por trás do Bonus Iuri — uma plataforma de análise de contratos que revisa documentos legais espanhóis contra legislação real — cada decisão arquitetónica teve de equilibrar três exigências concorrentes: qualidade de raciocínio, conformidade regulatória e sustentabilidade de custos em escala.
Este artigo percorre o raciocínio por trás das decisões-chave. Não é um modelo que se possa copiar — mas os princípios que nos guiaram num domínio onde errar tem consequências reais.
O Problema Central: IA Jurídica Que Não Alucina
O desafio fundamental da IA jurídica não é gerar texto que soe legal. Qualquer grande modelo de linguagem consegue produzir uma análise jurídica de aparência convincente. O desafio é produzir uma análise que seja correta — que cite artigos reais de leis reais, que identifique riscos genuínos baseados em doutrina jurídica estabelecida, e que distinga claramente entre o que o contrato diz e o que a lei exige.
Referências jurídicas alucinadas não são um inconveniente menor. Um utilizador que confia numa citação fabricada do artigo 47 de uma lei que só tem 35 artigos foi ativamente prejudicado pelo produto. Isto não é um caso extremo a mitigar — é o problema central a resolver.
A nossa abordagem assentou em três pilares arquitetónicos: geração aumentada por recuperação concebida especificamente para texto jurídico, uma política rigorosa de verificação de citações, e roteamento inteligente de modelos que ajusta a profundidade de raciocínio aos requisitos de cada tarefa.
Pilar 1: RAG Orientado à Legislação
As implementações padrão de RAG dividem os documentos em blocos de texto de tamanho fixo — 512 tokens, 1.000 caracteres, seja qual for o padrão — e recuperam os fragmentos mais semelhantes à consulta. Isso funciona para bases de conhecimento gerais. Falha para a legislação.
Os documentos jurídicos têm uma estrutura interna rígida: artigos, secções, subsecções, disposições transitórias, considerandos. Um fragmento de tamanho fixo que divide um artigo sobre cauções de arrendamento em dois blocos perde a coerência semântica que torna o artigo significativo. Pior ainda, pode produzir recuperações que combinam o final de um artigo com o início de outro, criando uma referência quimérica que parece válida mas não é.
O princípio: fragmentar nos limites jurídicos, não em contagens arbitrárias de tokens.
Construímos uma pipeline de fragmentação consciente da estrutura que analisa a estrutura legislativa antes de dividir. O sistema deteta os limites de artigos, secções, capítulos e disposições. Cada fragmento corresponde a uma unidade jurídica completa — tipicamente um artigo com as suas subsecções, ou uma secção coerente de um capítulo.
O sistema cobre sete legislações espanholas consolidadas provenientes do BOE (Boletín Oficial del Estado): o Código Civil, o Estatuto de los Trabajadores, a Ley de Arrendamientos Urbanos, direito societário, direito comercial, direito de insolvência e procedimento administrativo. Cada uma é fragmentada nos limites estruturais, vetorizada e deduplicada para evitar a acumulação de entradas obsoletas.
Porque a atualização importa: A legislação espanhola não é estática. Emendas e correções aparecem regularmente. Um sistema que cite uma versão desatualizada de um artigo — uma que foi alterada há meses — produz uma análise tecnicamente incorreta. Manter o índice legislativo atualizado é um custo operacional que a maioria dos protótipos ignora. Em produção, é a diferença entre uma ferramenta fiável e um passivo.
Pilar 2: Verificação de Citações — "Sem Fonte, Sem Afirmação"
Mesmo com RAG orientado à legislação, um LLM pode ainda gerar análise jurídica plausível que não corresponde a nenhuma fonte recuperada. O modelo pode interpolar entre dois artigos reais, ou recordar padrões de dados de treino que não se aplicam ao direito espanhol.
Impusemos uma regra rigorosa: cada asserção jurídica na saída deve ser rastreável a uma passagem específica recuperada. Se o sistema não consegue fundamentar uma afirmação num texto legislativo real, a afirmação não é feita.
A pipeline de análise valida as citações no momento da geração. Cada asserção jurídica é verificada contra o contexto recuperado: a passagem citada existe realmente? O documento fonte corresponde? A relevância é suficiente para suportar a afirmação? As asserções que falham na validação são sinalizadas em vez de incluídas silenciosamente.
O resultado é uma cadeia de transparência: o utilizador pode rastrear qualquer afirmação jurídica até um artigo específico de uma lei específica. Essa rastreabilidade é o que separa a IA jurídica útil da IA jurídica perigosa — e é o que confere ao Bonus Iuri a credibilidade para servir profissionais do direito, não apenas consumidores curiosos.
Pilar 3: Roteamento Inteligente de Modelos
Nem todas as tarefas numa análise jurídica requerem a mesma profundidade de raciocínio. Rotear tudo através do modelo mais potente (e caro) é um desperdício. Rotear tudo através do modelo mais barato produz qualidade inaceitável em tarefas de raciocínio complexo.
Construímos uma camada de roteamento que seleciona o modelo apropriado por tipo de tarefa, equilibrando qualidade de raciocínio, latência e custo:
- Deteção rápida de riscos — a pontuação inicial tipo semáforo que indica ao utilizador se o seu contrato tem problemas que vale a pena investigar — usa um modelo rápido e leve. Resposta em menos de um segundo, custo marginal quase nulo.
- Análise jurídica completa — a lista de verificação detalhada com raciocínio, citações e matriz de riscos — é roteada para um modelo com capacidades de raciocínio multi-passo mais sólidas.
- Cenários complexos multi-lei — contratos que abrangem múltiplos domínios jurídicos — usam modelos otimizados para referências cruzadas com cadeia de pensamento.
Porque isto importa economicamente: Uma plataforma jurídica de IA freemium vive ou morre pela economia unitária. Se cada análise gratuita é cara, escalar o nível gratuito torna-se insustentável. O roteamento inteligente mantém o nível gratuito viável enquanto reserva o raciocínio mais profundo para utilizadores pagantes. Não é apenas otimização de custos — é uma decisão de design de produto que molda a experiência do utilizador em cada nível.
Conformidade Como Arquitetura, Não Como Lista de Verificação
Em produtos de IA regulamentados, a conformidade é frequentemente tratada como um passo de revisão final: construir o produto, depois marcar as caixas. Esta abordagem falha porque produz arquiteturas caras de adaptar e documentação de conformidade que não reflete o comportamento real do sistema.
Para o Bonus Iuri, os requisitos de conformidade moldaram a arquitetura desde o primeiro dia:
A minimização de dados do RGPD orientou o modelo de armazenamento. Os documentos dos utilizadores são processados com persistência mínima. Quando o armazenamento é necessário, os dados de cada utilizador estão estruturalmente isolados — não apenas através de controlos de acesso, mas através da própria arquitetura de armazenamento. Nenhum acesso cruzado a dados de utilizadores é possível ao nível da infraestrutura.
O direito ao apagamento orientou o ciclo de vida dos dados. A eliminação da conta desencadeia uma cascata completa: documentos, embeddings derivados e registos de análise são permanentemente removidos. Não uma eliminação lógica com limpeza eventual — imediata e irreversível.
A transparência do Regulamento Europeu de IA orientou o formato de saída. Cada análise inclui uma divulgação clara dos sistemas de IA envolvidos, das suas limitações e das garantias sobre o tratamento de dados. Isto não é um link no rodapé para uma política geral — é uma divulgação contextual anexada ao resultado que o utilizador está a ler.
A ética do CCBE orientou o posicionamento do produto. A plataforma apresenta-se explicitamente como uma ferramenta de análise jurídica, não como um substituto do aconselhamento jurídico. Os avisos estão integrados no fluxo do utilizador, não enterrados nos termos de serviço.
O investimento: aproximadamente uma semana de um projeto de seis semanas. É significativo num calendário apertado. Mas adaptar a conformidade numa arquitetura não conforme teria custado duas a três vezes mais e produzido um resultado mais fraco.
Pipelines de Domínio Em Vez de Prompts Genéricos
A abordagem mais simples à análise de contratos é um único prompt: "Analisa este contrato e identifica riscos." Essa abordagem produz uma análise genérica e superficial — o equivalente em IA da primeira leitura de um estudante de direito.
Construímos pipelines de análise especializadas para cada tipo de contrato. Cada uma inclui:
- Mapeamento legislativo específico por tipo. A análise de um contrato de trabalho referencia direito laboral. Uma análise de arrendamento referencia direito de arrendamento. O sistema recupera do enquadramento jurídico relevante, não do corpus inteiro.
- Critérios de avaliação específicos do domínio. Cada tipo de contrato tem pontos de avaliação estruturados derivados do que um advogado espanhol em exercício verificaria — requisitos legais específicos com referências estatutárias específicas, não instruções genéricas de "procurar riscos".
- Pontuação de risco calibrada. O que constitui "alto risco" difere por tipo de contrato. Uma cláusula de compensação ausente num contrato de trabalho é uma violação legal. Um SLA ausente num contrato de serviços é uma preocupação de negociação. A pontuação reflete estas distinções.
A diferença de qualidade é a distância entre "este contrato tem alguns problemas potenciais" e "a cláusula 7.3 estabelece um período experimental de 9 meses, que excede o máximo legal para trabalhadores qualificados nos termos do artigo relevante do Estatuto de los Trabajadores."
Pode ver este nível de especificidade em ação em bonusiuri.pro.
O Que Isto Significa Para Outros Domínios Regulamentados
Os princípios por trás do motor de IA do Bonus Iuri não são específicos do legaltech. Aplicam-se a qualquer produto de IA num domínio regulamentado:
- Recuperação consciente da estrutura — não fragmente documentos de domínio arbitrariamente. Compreenda a sua estrutura interna e preserve-a.
- Verificação de citações — se a IA não consegue fundamentar uma afirmação, não a deve fazer. A rastreabilidade não é opcional em domínios de alto risco.
- Roteamento inteligente — ajuste a capacidade do modelo aos requisitos da tarefa. Nem todas as consultas precisam do modelo mais caro.
- Arquitetura orientada à conformidade — integre os requisitos regulatórios no modelo de dados e na infraestrutura, não numa lista de verificação.
- Especialização de domínio — prompts genéricos produzem resultados genéricos. Invista em pipelines específicas do domínio.
Estas não são recomendações teóricas. São os princípios que aplicámos para lançar uma plataforma jurídica de IA em produção em seis semanas — e são diretamente transferíveis para saúde, finanças, seguros e outros domínios onde os resultados da IA têm consequências reais.
Está a construir um produto de IA num domínio regulamentado? Fale com um CTO sobre como uma arquitetura orientada à conformidade pode comprimir o seu calendário sem cortar atalhos.


