← Tornar a tots els articles
Reptes

Construint un Motor Legal d'IA Conforme: Enrutament Multi-Model, RAG Legal i el Reglament Europeu d'IA a la Pràctica

Per Marc Molas·15 de gener del 2026·10 min de lectura

La majoria de productes d'IA es construeixen triant un model, escrivint alguns prompts i llançant. Això funciona per a un chatbot. No funciona quan el resultat té pes legal, quan les dades estan regulades i quan una resposta incorrecta no és simplement inútil — és potencialment perjudicial.

Quan vam construir el motor d'IA darrere de Bonus Iuri — una plataforma d'anàlisi de contractes que revisa documents legals espanyols contra legislació real — cada decisió arquitectònica va haver d'equilibrar tres exigències contraposades: qualitat de raonament, compliment normatiu i sostenibilitat de costos a escala.

Aquest article recorre el raonament darrere de les decisions clau. No és un model que puguis copiar — sinó els principis que ens van guiar en un domini on equivocar-se té conseqüències reals.

El Problema Central: IA Legal Que No Al·lucina

El repte fonamental de la IA legal no és generar text que soni legal. Qualsevol gran model de llenguatge pot produir una anàlisi legal que soni convincent. El repte és produir una anàlisi que sigui correcta — que citi articles reals de lleis reals, que identifiqui riscos genuïns basats en doctrina legal establerta, i que distingeixi clarament entre el que diu el contracte i el que exigeix la llei.

Les referències legals al·lucinades no són un inconvenient menor. Un usuari que confia en una citació fabricada de l'article 47 d'una llei que només té 35 articles ha estat activament perjudicat pel producte. Això no és un cas extrem a mitigar — és el problema central a resoldre.

El nostre enfocament es va recolzar en tres pilars arquitectònics: generació augmentada per recuperació dissenyada específicament per a text legal, una política estricta de verificació de cites, i enrutament intel·ligent de models que ajusta la profunditat de raonament als requisits de cada tasca.

Pilar 1: RAG Orientat a Legislació

Les implementacions estàndard de RAG divideixen els documents en blocs de text de mida fixa — 512 tokens, 1.000 caràcters, el que sigui per defecte — i recuperen els fragments més similars a la consulta. Això funciona per a bases de coneixement generals. Falla per a la legislació.

Els documents legals tenen una estructura interna rígida: articles, seccions, subseccions, disposicions transitòries, considerants. Un fragment de mida fixa que divideix un article sobre fiances de lloguer en dos blocs perd la coherència semàntica que fa significatiu l'article. Pitjor encara, pot produir recuperacions que combinen el final d'un article amb l'inici d'un altre, creant una referència quimèrica que sembla vàlida però no ho és.

El principi: fragmentar als límits legals, no en comptatges arbitraris de tokens.

Vam construir un pipeline de fragmentació conscient de l'estructura que analitza l'estructura legislativa abans de dividir. El sistema detecta els límits d'articles, seccions, capítols i disposicions. Cada fragment es correspon amb una unitat legal completa — típicament un article amb les seves subseccions, o una secció coherent d'un capítol.

El sistema cobreix set legislacions espanyoles consolidades obtingudes del BOE (Boletín Oficial del Estado): el Código Civil, l'Estatuto de los Trabajadores, la Ley de Arrendamientos Urbanos, dret mercantil, dret comercial, concursal i procediment administratiu. Cadascuna es fragmenta als límits estructurals, es vectoritza i es deduplica per evitar que s'acumulin entrades obsoletes.

Per què importa l'actualització: La legislació espanyola no és estàtica. Les esmenes i correccions apareixen regularment. Un sistema que citi una versió obsoleta d'un article — una que va ser esmenada fa mesos — produeix una anàlisi tècnicament incorrecta. Mantenir actualitzat l'índex legislatiu és un cost operatiu que la majoria de prototips ignoren. En producció, és la diferència entre una eina fiable i un passiu.

Pilar 2: Verificació de Cites — "Sense Font, Sense Afirmació"

Fins i tot amb RAG orientat a legislació, un LLM pot generar anàlisi legal que soni plausible però no correspongui a cap font recuperada. El model pot interpolar entre dos articles reals, o recordar patrons de dades d'entrenament que no s'apliquen al dret espanyol.

Vam aplicar una regla estricta: cada afirmació legal a la sortida ha de ser traçable a un passatge específic recuperat. Si el sistema no pot fonamentar una afirmació en un text legislatiu real, l'afirmació no es fa.

El pipeline d'anàlisi valida les cites en temps de generació. Cada afirmació legal es contrasta amb el context recuperat: existeix realment el passatge citat? Coincideix el document font? És la rellevància suficient per recolzar l'afirmació? Les afirmacions que no superen la validació es marquen en lloc d'incloure's silenciosament.

El resultat és una cadena de transparència: l'usuari pot rastrejar qualsevol afirmació legal fins a un article específic d'una llei específica. Aquesta traçabilitat és el que separa la IA legal útil de la IA legal perillosa — i és el que dona a Bonus Iuri la credibilitat per servir professionals del dret, no només consumidors curiosos.

Pilar 3: Enrutament Intel·ligent de Models

No totes les tasques d'una anàlisi legal requereixen la mateixa profunditat de raonament. Enrutar-ho tot a través del model més potent (i car) és un malbaratament. Enrutar-ho tot a través del model més barat produeix una qualitat inacceptable en tasques de raonament complex.

Vam construir una capa d'enrutament que selecciona el model apropiat per tipus de tasca, equilibrant qualitat de raonament, latència i cost:

  • Detecció ràpida de riscos — la puntuació inicial tipus semàfor que indica a l'usuari si el seu contracte té problemes que val la pena investigar — utilitza un model ràpid i lleuger. Resposta en menys d'un segon, cost marginal gairebé nul.
  • Anàlisi legal completa — la llista de verificació detallada amb raonament, cites i matriu de riscos — s'enruta a un model amb capacitats més fortes de raonament multi-pas.
  • Escenaris complexos multi-llei — contractes que abasten múltiples dominis legals — utilitzen models optimitzats per a referències creuades amb cadena de pensament.

Per què això importa econòmicament: Una plataforma legal d'IA freemium viu o mor per l'economia unitària. Si cada anàlisi gratuïta és costosa, escalar el nivell gratuït es torna insostenible. L'enrutament intel·ligent manté viable el nivell gratuït mentre reserva el raonament més profund per a usuaris de pagament. No és només optimització de costos — és una decisió de disseny de producte que modela l'experiència de l'usuari a cada nivell.

Compliment Com a Arquitectura, No Com a Llista de Verificació

En productes d'IA regulats, el compliment normatiu sovint es tracta com un pas de revisió final: construir el producte, després marcar les caselles. Aquest enfocament falla perquè produeix arquitectures costoses d'adaptar i documentació de compliment que no reflecteix el comportament real del sistema.

Per a Bonus Iuri, els requisits de compliment van donar forma a l'arquitectura des del primer dia:

La minimització de dades del RGPD va condicionar el model d'emmagatzematge. Els documents dels usuaris es processen amb persistència mínima. Quan l'emmagatzematge és necessari, les dades de cada usuari estan estructuralment aïllades — no només mitjançant controls d'accés, sinó a través de la pròpia arquitectura d'emmagatzematge. No és possible l'accés creuat a dades d'usuaris a nivell d'infraestructura.

El dret de supressió va condicionar el cicle de vida de les dades. L'eliminació del compte desencadena una cascada completa: documents, embeddings derivats i registres d'anàlisi s'eliminen permanentment. No és un esborrat lògic amb neteja eventual — és immediat i irreversible.

La transparència del Reglament Europeu d'IA va condicionar el format de sortida. Cada anàlisi inclou una divulgació clara dels sistemes d'IA involucrats, les seves limitacions i garanties sobre el tractament de dades. Això no és un enllaç al peu de pàgina a una política general — és una divulgació contextual adjunta al resultat que l'usuari està llegint.

L'ètica del CCBE va condicionar el posicionament del producte. La plataforma es presenta explícitament com una eina d'anàlisi legal, no com un substitut de l'assessorament jurídic. Els avisos estan integrats en el flux de l'usuari, no enterrats en els termes de servei.

La inversió: aproximadament una setmana d'un projecte de sis setmanes. És significatiu en un calendari ajustat. Però adaptar el compliment en una arquitectura no conforme hauria costat de dues a tres vegades més i hauria produït un resultat més feble.

Pipelines de Domini Sobre Prompts Genèrics

L'enfocament més simple per a l'anàlisi de contractes és un únic prompt: "Analitza aquest contracte i identifica riscos." Aquest enfocament produeix una anàlisi genèrica i superficial — l'equivalent en IA de la primera lectura d'un estudiant de dret.

Vam construir pipelines d'anàlisi especialitzats per a cada tipus de contracte. Cadascun inclou:

  • Mapeig de legislació específic per tipus. L'anàlisi d'un contracte de treball referencia dret laboral. Una anàlisi de lloguer referencia la llei d'arrendaments. El sistema recupera del marc legal rellevant, no del corpus complet.
  • Criteris d'avaluació específics del domini. Cada tipus de contracte té punts d'avaluació estructurats derivats del que un advocat espanyol en exercici verificaria — requisits legals específics amb referències estatutàries específiques, no instruccions genèriques de "buscar riscos".
  • Puntuació de risc calibrada. El que constitueix "alt risc" difereix per tipus de contracte. Una clàusula de compensació absent en un contracte de treball és una violació legal. Un SLA absent en un contracte de serveis és una preocupació de negociació. La puntuació reflecteix aquestes distincions.

La diferència de qualitat és la bretxa entre "aquest contracte té alguns problemes potencials" i "la clàusula 7.3 estableix un període de prova de 9 mesos, que supera el màxim legal per a treballadors qualificats segons l'article rellevant de l'Estatuto de los Trabajadores."

Pots veure aquest nivell d'especificitat en acció a bonusiuri.pro.

Què Significa Això Per a Altres Dominis Regulats

Els principis darrere del motor d'IA de Bonus Iuri no són específics del legaltech. S'apliquen a qualsevol producte d'IA en un domini regulat:

  1. Recuperació conscient de l'estructura — no fragmentis documents de domini arbitràriament. Comprèn la seva estructura interna i preserva-la.
  2. Verificació de cites — si la IA no pot fonamentar una afirmació, no l'hauria de fer. La traçabilitat no és opcional en dominis d'alt risc.
  3. Enrutament intel·ligent — ajusta la capacitat del model als requisits de la tasca. No totes les consultes necessiten el teu model més car.
  4. Arquitectura que prioritza el compliment — incorpora els requisits regulatoris al model de dades i la infraestructura, no a una llista de verificació.
  5. Especialització de domini — els prompts genèrics produeixen resultats genèrics. Inverteix en pipelines específics del domini.

Aquestes no són recomanacions teòriques. Són els principis que vam aplicar per llançar una plataforma legal d'IA en producció en sis setmanes — i són directament transferibles a sanitat, finances, assegurances i altres dominis on els resultats de la IA tenen conseqüències reals.


Estàs construint un producte d'IA en un domini regulat? Parla amb un CTO sobre com una arquitectura que prioritza el compliment pot comprimir el teu calendari sense fer dreceres.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.