Agents d'IA el 2026: MCP, Límits de Memòria i el Mur d'Interoperabilitat
La Stanford Emerging Technology Review 2026 és inusualment directa sobre la bretxa entre les demos d'agents i els agents en producció:
Els agents d'IA, en la seva forma ideal, executen tasques amb mínima entrada i supervisió humana. … Tanmateix, des d'un punt de vista tècnic, els agents actuals afronten limitacions significatives.
L'informe n'anomena quatre: memòria, fiabilitat, interoperabilitat i eficiència. Qualsevol que estigui desplegant sistemes agèntics el 2026 ha topat amb almenys tres en producció. El propòsit d'aquest post és ser específic sobre cada un, on la indústria realment ha avançat i on continuen passant les fallades.
1. Memòria: La Longitud de Context No És Memòria
L'enquadrament de l'informe és precís: la memòria de treball d'un agent està fitada per la longitud de context, i la longitud de context — fins i tot als sistemes top — "continua sense ser suficient per recordar tots els detalls necessaris per executar moltes tasques multipas, especialment entre sessions diferents."
Com es veu això en producció:
- L'agent oblida el que va aprendre al pas 3 quan arriba al pas 17, perquè el raonament inicial va ser compactat.
- La continuïtat entre sessions ("recorda què vam decidir ahir") no és una capacitat del model; és un sistema extern que has de construir.
- Les finestres de context llargues estenen la pista però no resolen el problema fonamental — i empitjoren la latència i el cost.
Implicacions d'enginyeria:
- Tracta la memòria episòdica com a infraestructura de capa d'aplicació, no com una funcionalitat del model. Vector stores, logs d'esdeveniments estructurats, pipelines de resum i polítiques de retrieval pertanyen a la teva arquitectura, no al model.
- Distingeix memòria de treball de memòria semàntica de memòria episòdica. Tenen patrons d'accés diferents, freqüències d'actualització diferents, modes de fallada diferents. Una sola DB vectorial fent les tres és una pudor.
- La compactació és una decisió de disseny, no un default. Quan comprimir context antic, què resumir, què descartar del tot — són polítiques que donen forma al comportament de l'agent. L'autoresum amb heurístics per defecte produeix agents que obliden coses importants amb confiança.
2. Fiabilitat: Deriva d'Objectiu, Bucles Infinits, Esgotament de Recursos
L'informe anomena tres modes de fallada concrets:
- Deriva d'objectiu — l'agent deixa de perseguir el seu objectiu original i persegueix alguna cosa menys rellevant.
- Bucles infinits — l'agent s'encalla repetint accions sense avançar.
- Esgotament de recursos — l'agent crema còmput i memòria en reintents i carrerons sense sortida.
Qualsevol que hagi operat un agent autònom en producció ha vist els tres. No són casos límit; són el comportament per defecte d'agents insuficientment restringits en condicions reals.
Què funciona a la pràctica:
- Tracking explícit de l'objectiu. L'objectiu actual de l'agent hauria de ser un artefacte estructurat, no una cadena enterrada a l'historial de prompts. Cada acció hauria de ser avaluable enfront d'ell. La deriva és detectable quan l'objectiu està estructurat.
- Detecció de bucles a la capa d'orquestració. Guardes de màquina d'estats, detecció de cicles sobre el graf d'accions i topalls durs en comptes d'accions per tasca. No confiïs que el model noti que està en bucle.
- Aplicació de pressupost. Pressupostos durs de tokens, temps i diners per tasca. Els pressupostos tous s'excedeixen silenciosament; els durs fallen sorollosa i barata.
- Checkpoints de reflexió. A intervals fixos, l'agent reavalua el progrés enfront de l'objectiu original. Si el progrés és zero, escala a un humà o avorta. És el més semblant a un "pas d'acceptació" que tenen els sistemes agèntics, i s'ha de construir explícitament.
3. Interoperabilitat: MCP És Progrés Real
L'informe destaca el Model Context Protocol (MCP), introduït per Anthropic el novembre de 2024 i adoptat des de llavors per OpenAI, Google DeepMind i Microsoft, com l'estàndard obert que resol la integració segura i eficient entre agent i sistema. És la primera menció d'un protocol específic al capítol, i s'ho mereix.
Què resol realment MCP:
- Una interfície comuna perquè els agents llegeixin arxius, executin funcions, gestionin prompts contextuals i es connectin a eines, fonts de dades i aplicacions.
- Autenticació, declaració de capacitats i format de missatge estandarditzats entre proveïdors.
- Un camí fora dels formats de tool-use a mida per proveïdor que feien impossible el codi d'agent portable.
Què no resol MCP:
- Interoperabilitat semàntica. Dos servidors MCP poden exposar tots dos una eina
get_customeramb esquemes, semàntiques i garanties de consistència completament diferents. El protocol eleva el problema un nivell; no el fa desaparèixer. - Autorització a la granularitat correcta. "Aquest agent pot cridar aquesta eina" és un permís gruixut. "Aquest agent pot cridar aquesta eina només amb aquestes formes d'argument, només sobre dades que aquest usuari posseeix, només en horari laboral" — aquesta és la frontera de seguretat real, i viu a la teva aplicació, no a MCP.
- Coordinació entre agents. MCP estandarditza la comunicació agent-a-sistema. La coordinació agent-a-agent (workflows multi-agent, delegació jeràrquica, coordinació tipus mercat) continua sent un problema obert.
La lectura correcta de MCP per als equips d'enginyeria: adopta'l, però no el confonguis amb haver acabat la història d'integració. Treu una capa de dolor. Les capes més dures — disseny d'esquemes, autorització, observabilitat entre crides a eines, traces d'auditoria per a accions d'agents — segueixen sent cosa teva.
4. Eficiència: L'Especialització És la Frontera Real
L'informe és clar que el progrés està passant de "models cada cop més intensius en recursos" a usar els recursos existents amb més eficiència — dades sintètiques, aritmètica de menor precisió, destil·lació, curació de dades d'entrenament. Per als constructors d'agents, la versió operativa és:
- Models petits especialitzats per a sub-tasques. Enrutament, classificació, extracció, resum — no necessiten un model frontera. Un model de 7B paràmetres afinat sovint bat el frontera en cost per tasca per 20–50x, amb qualitat comparable a la tasca concreta.
- Cadenes de raonament cachejades. Una quantitat sorprenent de feina d'agent és raonament repetit sobre entrades similars. Cacheja agressivament a nivell de cadena, no només a nivell de token.
- Orquestració híbrida. Un model frontera com a planner, models petits com a executors. El planner es crida rarament; els executors es criden constantment. Aquesta és l'arquitectura que escala.
On Trenquen Realment els Agents en Producció
Si hagués d'escriure la guia de camp basada en el que he vist desplegar i trencar-se, seria això:
- A l'agent se li donen eines però no restriccions. Pot fer qualsevol cosa; fa l'equivocada ràpid.
- La memòria és una sola bossa. Vector store, tot el coneixement, sense esquema. El retrieval és sorollós. El raonament es degrada.
- Les rutes de fallada no es gestionen. L'eina retorna error → l'agent improvisa → la improvisació sembla plausible → l'auditoria després troba disbarats.
- El cost és invisible. Sense telemetria de cost per tasca. Arriba la factura. No es reverteix res.
- L'avaluació va per intuïció. Sense suite de regressió. Cada canvi de prompt és una esperança.
Cap d'aquests és un problema del model. Tots són problemes d'enginyeria.
On Encaixa Conectia
Construir agents que no fallin d'aquestes formes concretes és una competència d'enginyeria diferent de construir funcionalitats de xat. Requereix instints de sistemes distribuïts (màquines d'estat, idempotència, observabilitat), instints de seguretat (autorització a la capa correcta, traces d'auditoria, sandboxing) i judici específic d'IA (quan afegir un pas de reflexió, quan restringir les crides a eines, quan recórrer a un humà).
Els enginyers que col·loquem a Conectia estan validats precisament per a aquesta capa — disseny de sistemes i proficiència en IA avaluats junts, per CTOs actius, sobre escenaris reals. Les lectures profundes rellevants són D'Automatització a Autonomia: Full de Ruta per a Agents d'IA Autònoms i Arquitectura de Governança Verificable per a IA Agèntica.
L'enquadrament que fa l'informe de Stanford de les limitacions dels agents és honest d'una manera que el material de la majoria de proveïdors no ho és. Tracta'l com una checklist: quina de les quatre — memòria, fiabilitat, interoperabilitat, eficiència — aborda realment la teva arquitectura actual? Les que no, són les que fallaran en producció.


