Costruire un Motore di IA Legale Conforme: Routing Multi-Modello, RAG Giuridico e il Regolamento Europeo sull'IA nella Pratica
La maggior parte dei prodotti di IA viene costruita scegliendo un modello, scrivendo alcuni prompt e lanciando. Questo funziona per un chatbot. Non funziona quando l'output ha peso legale, quando i dati sono regolamentati e quando una risposta sbagliata non e solo inutile — e potenzialmente dannosa.
Quando abbiamo costruito il motore di IA dietro Bonus Iuri — una piattaforma di analisi contrattuale che esamina documenti legali spagnoli rispetto alla legislazione reale — ogni decisione architetturale doveva bilanciare tre esigenze in competizione: qualita del ragionamento, conformita normativa e sostenibilita dei costi su larga scala.
Questo articolo ripercorre il ragionamento dietro le decisioni chiave. Non e un modello da copiare — ma i principi che ci hanno guidato in un dominio dove sbagliare ha conseguenze reali.
Il Problema Centrale: IA Legale che Non Allucina
La sfida fondamentale nell'IA legale non e generare testo che suoni giuridico. Qualsiasi grande modello linguistico puo produrre analisi legali dal tono convincente. La sfida e produrre analisi che siano corrette — che citino articoli reali di leggi reali, che identifichino rischi genuini basati su dottrina giuridica consolidata e che distinguano chiaramente tra cio che dice il contratto e cio che richiede la legge.
I riferimenti legali allucinati non sono un inconveniente minore. Un utente che si affida a una citazione fabbricata dell'articolo 47 di una legge che ha solo 35 articoli e stato attivamente danneggiato dal prodotto. Questo non e un caso limite da mitigare — e il problema centrale da risolvere.
Il nostro approccio si fondava su tre pilastri architetturali: generazione aumentata dal recupero progettata specificamente per il testo giuridico, una politica rigorosa di verifica delle citazioni e routing intelligente dei modelli che adatta la profondita del ragionamento ai requisiti di ciascun compito.
Pilastro 1: RAG Basato sulla Legislazione
Le implementazioni standard di RAG suddividono i documenti in blocchi di testo a dimensione fissa — 512 token, 1.000 caratteri, qualunque sia il valore predefinito — e recuperano i blocchi piu simili alla query. Questo funziona per le basi di conoscenza generali. Fallisce per la legislazione.
I documenti legali hanno una struttura interna rigida: articoli, sezioni, sottosezioni, disposizioni transitorie, considerando. Un blocco a dimensione fissa che divide un articolo sui depositi cauzionali in due frammenti perde la coerenza semantica che rende l'articolo significativo. Peggio ancora, puo produrre recuperi che combinano la fine di un articolo con l'inizio di un altro, creando un riferimento chimerico che sembra valido ma non lo e.
Il principio: suddividere ai confini giuridici, non a conteggi arbitrari di token.
Abbiamo costruito una pipeline di suddivisione che riconosce le sezioni e analizza la struttura legislativa prima di dividere. Il sistema rileva i confini di articoli, sezioni, capitoli e disposizioni. Ogni frammento corrisponde a un'unita giuridica completa — tipicamente un articolo con le sue sottosezioni, o una sezione coerente di un capitolo.
Il sistema copre sette legislazioni spagnole consolidate provenienti dal BOE (Boletin Oficial del Estado): il Codigo Civil, l'Estatuto de los Trabajadores, la Ley de Arrendamientos Urbanos, il diritto societario, il diritto commerciale, il diritto fallimentare e la procedura amministrativa. Ciascuna viene suddivisa ai confini strutturali, vettorializzata e deduplicata per evitare l'accumulo di voci obsolete.
Perche la freschezza conta: La legislazione spagnola non e statica. Emendamenti e correzioni appaiono regolarmente. Un sistema che cita una versione obsoleta di un articolo — modificata mesi fa — produce analisi tecnicamente incorrette. Mantenere aggiornato l'indice legislativo e un costo operativo che la maggior parte dei prototipi ignora. In produzione, e la differenza tra uno strumento affidabile e un rischio.
Pilastro 2: Verifica delle Citazioni — "Nessuna Fonte, Nessuna Affermazione"
Anche con un RAG basato sulla legislazione, un LLM puo ancora generare analisi legali plausibili che non corrispondono a nessuna fonte recuperata. Il modello potrebbe interpolare tra due articoli reali, o richiamare pattern dai dati di addestramento che non si applicano al diritto spagnolo.
Abbiamo imposto una regola rigorosa: ogni affermazione legale nell'output deve essere tracciabile a un passaggio recuperato specifico. Se il sistema non puo ancorare un'affermazione in un testo legislativo reale, l'affermazione non viene fatta.
La pipeline di analisi valida le citazioni al momento della generazione. Ogni affermazione legale viene verificata rispetto al contesto recuperato: il passaggio citato esiste realmente? Il documento sorgente corrisponde? La rilevanza e sufficientemente forte da sostenere l'affermazione? Le affermazioni che non superano la validazione vengono segnalate anziche incluse silenziosamente.
Il risultato e una catena di trasparenza: l'utente puo tracciare qualsiasi affermazione legale fino a un articolo specifico di una legge specifica. Questa tracciabilita e cio che separa l'IA legale utile dall'IA legale pericolosa — ed e cio che conferisce a Bonus Iuri la credibilita per servire professionisti del diritto, non solo consumatori curiosi.
Pilastro 3: Routing Intelligente dei Modelli
Non tutti i compiti in un'analisi legale richiedono la stessa profondita di ragionamento. Instradare tutto attraverso il modello piu potente (e costoso) e uno spreco. Instradare tutto attraverso il modello piu economico produce una qualita inaccettabile nei compiti di ragionamento complesso.
Abbiamo costruito un livello di routing che seleziona il modello appropriato per tipo di compito, bilanciando qualita del ragionamento, latenza e costo:
- Rilevamento rapido dei rischi — il punteggio iniziale a semaforo che indica all'utente se il suo contratto ha problemi che vale la pena investigare — utilizza un modello rapido e leggero. Risposta in meno di un secondo, costo marginale quasi nullo.
- Analisi legale completa — la checklist dettagliata con ragionamento, citazioni e matrice dei rischi — viene instradata verso un modello con capacita di ragionamento multi-step piu solide.
- Scenari complessi multi-legge — contratti che coprono piu domini giuridici — utilizzano modelli ottimizzati per il riferimento incrociato con catena di pensiero.
Perche questo conta economicamente: Una piattaforma di IA legale freemium vive o muore per la sua economia unitaria. Se ogni analisi gratuita e costosa, scalare il livello gratuito diventa insostenibile. Il routing intelligente mantiene praticabile il livello gratuito riservando un ragionamento piu approfondito agli utenti paganti. Non e solo ottimizzazione dei costi — e una decisione di design del prodotto che modella l'esperienza utente a ogni livello.
La Conformita come Architettura, Non come Lista di Controllo
Nei prodotti di IA regolamentati, la conformita viene spesso trattata come un passaggio finale di revisione: costruisci il prodotto, poi spunta le caselle. Questo approccio fallisce perche produce architetture costose da modificare retroattivamente e documentazione di conformita che non riflette il comportamento reale del sistema.
Per Bonus Iuri, i requisiti di conformita hanno plasmato l'architettura fin dal primo giorno:
La minimizzazione dei dati del GDPR ha guidato il modello di archiviazione. I documenti degli utenti vengono elaborati con persistenza minima. Quando l'archiviazione e necessaria, i dati di ciascun utente sono strutturalmente isolati — non solo tramite controlli di accesso, ma attraverso l'architettura di archiviazione stessa. Nessun accesso incrociato ai dati tra utenti e possibile a livello di infrastruttura.
Il diritto alla cancellazione ha guidato il ciclo di vita dei dati. L'eliminazione dell'account innesca una cascata completa: documenti, embedding derivati e record di analisi vengono rimossi permanentemente. Non una cancellazione logica con pulizia successiva — immediata e irreversibile.
La trasparenza del Regolamento Europeo sull'IA ha guidato il formato di output. Ogni analisi include una chiara divulgazione dei sistemi di IA coinvolti, delle loro limitazioni e delle garanzie sul trattamento dei dati. Questo non e un link a pie di pagina verso una policy generica — e una divulgazione contestuale allegata all'output che l'utente sta leggendo.
L'etica del CCBE ha guidato il posizionamento del prodotto. La piattaforma e esplicitamente uno strumento di analisi legale, non un sostituto della consulenza legale. Gli avvertimenti sono integrati nel flusso utente, non sepolti nei termini di servizio.
L'investimento: circa una settimana su un progetto di sei settimane. E significativo in un calendario serrato. Ma adattare retroattivamente la conformita a un'architettura non conforme sarebbe costato due o tre volte tanto e avrebbe prodotto un risultato piu debole.
Pipeline di Dominio Anziche Prompt Generici
L'approccio piu semplice all'analisi contrattuale e un singolo prompt: "Analizza questo contratto e identifica i rischi." Questo approccio produce analisi generiche e superficiali — l'equivalente IA della prima lettura di uno studente di giurisprudenza.
Abbiamo costruito pipeline di analisi specializzate per ogni tipo di contratto. Ciascuna include:
- Mappatura legislativa specifica per tipo. Un'analisi di contratto di lavoro fa riferimento al diritto del lavoro. Un'analisi di locazione fa riferimento alla legge sulle locazioni. Il sistema recupera dal quadro giuridico pertinente, non dall'intero corpus.
- Criteri di valutazione specifici del dominio. Ogni tipo di contratto ha punti di valutazione strutturati derivati da cio che un avvocato spagnolo praticante verificherebbe — requisiti legali specifici con riferimenti normativi specifici, non istruzioni generiche del tipo "cerca i rischi".
- Punteggio di rischio calibrato. Cio che costituisce "alto rischio" differisce per tipo di contratto. L'assenza di una clausola di indennizzo in un contratto di lavoro e una violazione legale. L'assenza di un SLA in un contratto di servizi e una preoccupazione negoziale. Il punteggio riflette queste distinzioni.
La differenza di qualita e il divario tra "questo contratto ha alcuni potenziali problemi" e "la clausola 7.3 stabilisce un periodo di prova di 9 mesi, che supera il massimo legale per i lavoratori qualificati ai sensi dell'articolo corrispondente dell'Estatuto de los Trabajadores."
Puoi vedere questo livello di specificita in azione su bonusiuri.pro.
Cosa Significa Questo per Altri Domini Regolamentati
I principi dietro il motore di IA di Bonus Iuri non sono specifici del legaltech. Si applicano a qualsiasi prodotto di IA in un dominio regolamentato:
- Recupero strutturalmente consapevole — non suddividere i documenti del dominio in modo arbitrario. Comprendi la loro struttura interna e preservala.
- Verifica delle citazioni — se l'IA non puo ancorare un'affermazione, non dovrebbe farla. La tracciabilita non e opzionale nei domini ad alto rischio.
- Routing intelligente — adatta la capacita del modello ai requisiti del compito. Non tutte le query necessitano del modello piu costoso.
- Architettura conformita-first — integra i requisiti normativi nel modello dati e nell'infrastruttura, non in una lista di controllo.
- Specializzazione di dominio — i prompt generici producono risultati generici. Investi in pipeline specifiche del dominio.
Queste non sono raccomandazioni teoriche. Sono i principi che abbiamo applicato per lanciare una piattaforma di IA legale in produzione in sei settimane — e sono direttamente trasferibili a sanita, finanza, assicurazioni e altri domini dove l'output dell'IA ha conseguenze reali.
Stai costruendo un prodotto di IA in un dominio regolamentato? Parla con un CTO per scoprire come l'architettura conformita-first puo comprimere la tua timeline senza tagliare gli angoli.


