← Tornar a tots els articles
Reptes

Agents d'IA el 2026: MCP, els límits de la memòria i el mur de la interoperabilitat

Per Marc Molas·26 d’abril del 2026·9 min de lectura

La Stanford Emerging Technology Review 2026 parla amb una franquesa poc habitual de la distància entre les demos d'agents i els agents en producció:

Idealment, els agents d'IA operen executant tasques amb una intervenció i una supervisió humanes mínimes. … Tanmateix, des del punt de vista tècnic, els agents actuals tenen limitacions importants.

L'informe en posa nom a quatre: memòria, fiabilitat, interoperabilitat i eficiència. De les quatre, jo n'he topat almenys tres en producció — i com jo, qualsevol que estigui posant sistemes agèntics en marxa el 2026. Vull ser concret amb cada una: on la indústria ha avançat de debò i on continuen apareixent les fallades.

1. Memòria: la longitud del context no és memòria

L'informe ho formula amb precisió: la memòria de treball d'un agent està limitada per la longitud del context, i la longitud del context — fins i tot en els millors sistemes — «encara no és suficient per recordar tots els detalls necessaris per executar moltes tasques de múltiples passos, especialment entre sessions diferents».

A producció, això es tradueix en:

  • L'agent, quan arriba al pas 17, ja no recorda què havia après al pas 3, perquè el raonament inicial ha quedat compactat pel camí.
  • La continuïtat entre sessions («recorda què vam decidir ahir») no és una capacitat del model; és un sistema extern que t'has de construir tu.
  • Les finestres de context llargues donen més marge, però no resolen el problema de fons — i empitjoren la latència i el cost.

Implicacions per a l'enginyeria:

  • Tracta la memòria episòdica com a infraestructura de la capa d'aplicació, no com una funcionalitat del model. Els vector stores, els registres d'esdeveniments estructurats, els pipelines de resum i les polítiques de recuperació pertanyen a la teva arquitectura, no al model.
  • Distingeix la memòria de treball de la semàntica i de l'episòdica. Tenen patrons d'accés diferents, freqüències d'actualització diferents i modes de fallada diferents. Una única base de dades vectorial fent les tres feines és mal senyal.
  • La compactació és una decisió de disseny, no un comportament per defecte. Quan comprimir el context antic, què resumir, què descartar del tot: són polítiques que modelen el comportament de l'agent. L'autoresum amb heurístiques per defecte produeix agents que obliden coses importants amb tota la tranquil·litat del món.

2. Fiabilitat: deriva d'objectius, bucles infinits, esgotament de recursos

L'informe assenyala tres modes de fallada concrets:

  • Deriva d'objectiu — l'agent deixa de perseguir l'objectiu original i es desvia cap a alguna cosa menys rellevant.
  • Bucles infinits — l'agent s'encalla repetint accions sense avançar.
  • Esgotament de recursos — l'agent crema còmput i memòria en reintents i carrerons sense sortida.

Qualsevol que hagi operat un agent autònom en producció els ha vist tots tres. No són casos límit; són el comportament per defecte dels agents poc restringits en condicions reals.

Què funciona a la pràctica:

  • Seguiment explícit de l'objectiu. L'objectiu actual de l'agent hauria de ser un artefacte estructurat, no una cadena de text enterrada a l'historial de prompts. Cada acció s'hauria de poder avaluar contra aquest objectiu. Quan l'objectiu està estructurat, la deriva es pot detectar.
  • Detecció de bucles a la capa d'orquestració. Guardes de màquina d'estats, detecció de cicles sobre el graf d'accions i límits durs al nombre d'accions per tasca. No confiïs que el model s'adoni que està girant en rodó.
  • Pressupostos que es fan complir. Límits durs de tokens, de temps i de diners per tasca. Els pressupostos tous se sobrepassen en silenci; els durs fallen fent soroll i costant poc.
  • Punts de control de reflexió. A intervals fixos, l'agent reavalua el progrés respecte de l'objectiu original. Si el progrés és zero, escala a un humà o avorta. És el més semblant a un «pas d'acceptació» que tenen els sistemes agèntics, i s'ha de construir expressament.

3. Interoperabilitat: MCP és un progrés real

L'informe destaca el Model Context Protocol (MCP) — presentat per Anthropic el novembre de 2024 i adoptat des de llavors per OpenAI, Google DeepMind i Microsoft — com l'estàndard obert que resol la integració segura i eficient entre agents i sistemes. És el primer protocol concret que apareix al capítol, i el lloc se l'ha guanyat.

Què resol MCP de debò:

  • Una interfície comuna perquè els agents llegeixin fitxers, executin funcions, gestionin prompts contextuals i es connectin a eines, fonts de dades i aplicacions.
  • Autenticació, declaració de capacitats i format de missatges estandarditzats entre proveïdors.
  • Una sortida als formats de tool-use propis de cada proveïdor, que feien impossible escriure codi d'agent portable.

Què no resol MCP:

  • La interoperabilitat semàntica. Dos servidors MCP poden exposar tots dos una eina get_customer amb esquemes, semàntica i garanties de consistència completament diferents. El protocol puja el problema un nivell; no el fa desaparèixer.
  • L'autorització amb la granularitat adequada. «Aquest agent pot cridar aquesta eina» és un permís de gra gros. «Aquest agent pot cridar aquesta eina només amb aquestes formes d'arguments, només sobre dades d'aquest usuari i només en horari laboral»: aquesta és la frontera de seguretat real, i viu a la teva aplicació, no a MCP.
  • La coordinació entre agents. MCP estandarditza la comunicació agent-sistema. La coordinació agent-agent (fluxos multiagent, delegació jeràrquica, coordinació d'estil mercat) continua sent un problema obert.

La lectura correcta de MCP per a un equip d'enginyeria: adopta'l, però no et pensis que amb això la integració queda enllestida. T'estalvia una capa de maldecaps. Les capes dures — disseny d'esquemes, autorització, observabilitat de les crides a eines, traces d'auditoria de les accions de l'agent — continuen sent cosa teva.

4. Eficiència: l'especialització és la frontera real

L'informe és clar: el progrés s'està desplaçant de «models cada cop més intensius en recursos» cap a treure més partit dels recursos existents — dades sintètiques, aritmètica de menys precisió, destil·lació, tria acurada de les dades d'entrenament. Per a qui construeix agents, la versió operativa és aquesta:

  • Models petits especialitzats per a subtasques. Encaminament, classificació, extracció, resum: no necessiten un model frontera. Un model de 7B paràmetres ben afinat sovint guanya el model frontera en cost per tasca per un ordre de magnitud o més, amb una qualitat comparable en la tasca concreta.
  • Cadenes de raonament en cache. Una part sorprenent de la feina d'un agent és raonament repetit sobre entrades semblants. Fes cache de manera agressiva a nivell de cadena, no només de token.
  • Orquestració híbrida. Un model frontera com a planificador i models petits com a executors. El planificador es crida poc; els executors, constantment. Aquesta és l'arquitectura que escala.

On es trenquen de debò els agents en producció

Si hagués d'escriure la guia de camp a partir del que he vist desplegar-se i trencar-se, seria aquesta:

  • L'agent té eines, però no restriccions. Pot fer qualsevol cosa; fa la cosa equivocada de pressa.
  • La memòria és un sac únic. Un vector store, tot el coneixement a dins, cap esquema. La recuperació és sorollosa. El raonament es degrada.
  • Els camins de fallada no estan gestionats. L'eina retorna un error → l'agent improvisa → la improvisació sembla plausible → l'auditoria, més endavant, hi troba disbarats.
  • El cost és invisible. Cap telemetria de cost per tasca. Arriba la factura. No es pot revertir res.
  • L'avaluació va a ull. Cap suite de regressió. Cada canvi de prompt és un acte de fe.

Cap d'aquests problemes és del model. Tots són d'enginyeria. El contraargument honest és que models millors n'absorbiran una part — i és cert: cada generació entra menys en bucle i reté més context. Però cada salt de model que he vist aterrar ha desplaçat la frontera de fallada, no l'ha eliminada. Les restriccions, els pressupostos i les traces d'auditoria s'han hagut de construir igualment.

On encaixa Conectia

Construir agents que no fallin d'aquestes maneres concretes és una competència d'enginyeria diferent de construir funcionalitats de xat. Demana instints de sistemes distribuïts (màquines d'estats, idempotència, observabilitat), instints de seguretat (autorització a la capa correcta, traces d'auditoria, sandboxing) i criteri específic d'IA (quan afegir un pas de reflexió, quan restringir les crides a eines, quan passar la mà a un humà).

Els enginyers que col·loquem des de Conectia es validen exactament per a aquesta capa: disseny de sistemes i domini de la IA avaluats alhora, per CTOs en actiu, sobre escenaris reals. Si hi vols aprofundir, les lectures rellevants són D'Automatització a Autonomia: Full de Ruta per a Agents d'IA Autònoms i Arquitectura de Governança Verificable per a IA Agèntica.

La manera com l'informe de Stanford planteja les limitacions dels agents és honesta d'una manera que el material de la majoria de proveïdors no ho és. Tracta'l com una checklist: de les quatre — memòria, fiabilitat, interoperabilitat, eficiència — quines aborda de debò la teva arquitectura actual? Les que no, són les que et fallaran en producció.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.