Reptes

De l'automatització a l'autonomia: el full de ruta d'un CTO per desplegar agents d'IA autònoms

Per Marc Molas·28 de setembre del 2025·12 min de lectura

L'automatització i l'autonomia no són el mateix, i la majoria d'estratègies d'agents que em demanen de revisar les confonen. La distinció importa més del que sembla.

L'automatització és determinista: un sistema executa un flux de treball predefinit, amb entrades predefinides i punts de decisió predefinits. Si A, fes B. Si C, fes D. Cada resultat possible el va imaginar un humà per avançat, el va escriure en regles i el va provar.

L'autonomia és generativa: el sistema rep un objectiu i un conjunt d'eines, i decideix com assolir-lo. El camí no està predefinit. Les decisions no venen d'un guió. El sistema raona, actua, observa i s'ajusta — sovint de maneres que qui el va dissenyar no havia previst.

Aquesta diferència ho canvia tot: com dissenyes el sistema, com el despleges i com el governes. Quan falla un marc d'automatització, normalment és un bug — el desenvolupador no va preveure un cas. Quan falla un marc d'autonomia, és un problema de governança — l'agent ha pres una decisió dins del seu abast amb conseqüències que ningú no volia.

El 2025 és l'any en què els agents d'IA autònoms passen de les demos de recerca als desplegaments en producció — i una part creixent del que es desplega és autònom, no només automatitzat. Per a un CTO, això converteix un debat abstracte en una pregunta concreta: com despleguem agents autònoms amb seguretat, de manera que aportin valor real sense generar risc organitzatiu?

Aquest és el full de ruta.

Què fan realment els agents autònoms el 2025

Abans del full de ruta, una fotografia realista de l'estat actual. Els agents que de debò funcionen en producció el 2025 fan, típicament, coses com aquestes:

Triatge i resolució de suport al client: llegeixen peticions entrants, consulten sistemes, redacten respostes i escalen quan tenen dubtes.
Tasques de desenvolupament de programari: llegeixen tiquets, implementen canvis, executen tests, obren PRs i responen comentaris de revisió — amb humans que aproven abans del merge.
Anàlisi de dades i informes: extreuen dades de diverses fonts, executen anàlisis, generen informes i marquen anomalies.
Compres i fluxos contractuals: avaluen proveïdors segons criteris, negocien condicions estàndard i executen dins de paràmetres aprovats.
Producció de contingut: redacten, editen, tradueixen i formaten — sovint amb revisió humana en punts de control clau.
Operacions de TI: diagnostiquen problemes, apliquen les solucions estàndard i escalen quan apareixen patrons desconeguts.

Què no funciona encara prou bé en producció:

Decisions estratègiques d'alt risc i en contextos inèdits
Coordinació multiagent a escala (encara fràgil a la majoria de sistemes reals)
Tasques de llarg recorregut que s'allarguen dies o setmanes sense punts de control humans
Accions d'alta precisió amb conseqüències irreversibles (transaccions financeres més enllà d'imports petits, comunicacions sensibles, esborrat de dades)

El full de ruta s'ha de centrar en allò que ja funciona — estendre els patrons provats en producció —, no en allò que llueix a les demos.

Quatre preguntes que decideixen si estàs a punt

Abans de desplegar cap agent autònom, faig quatre preguntes de preparació. Si alguna resposta és vaga, no estàs a punt.

1. Què pot fer exactament aquest agent, i què no?

Els agents autònoms més perillosos són els que tenen els límits sense definir. Un agent que «ajuda amb el suport al client» és un xec en blanc. Un agent que «gestiona peticions de restabliment de contrasenya de nivell 1 per a usuaris verificats, i escala a suport humà qualsevol desviació del flux estàndard» és un desplegament acotat.

La definició d'abast ha de respondre:

Quines eines pot cridar l'agent?
Quines decisions pot prendre sense aprovació humana?
Quins llindars (imports, volums de dades, nivells de severitat) obliguen a escalar?
Quines entrades activen l'agent i quines van directes a humans?

Si no ho pots especificar, l'agent no està a punt.

2. Què passa quan l'agent s'equivoca?

Tot agent autònom produirà, de tant en tant, resultats erronis. La pregunta és què passa llavors:

Les accions de l'agent, són reversibles? (Enviar un correu no ho és. Marcar un element perquè es revisi, sí.)
Els humans poden detectar els errors abans que s'agreugin? (Registres, pistes d'auditoria, cues de revisió.)
Quin és el dany si un error passa desapercebut? (Financer, reputacional, de compliment normatiu, operatiu.)
Quin és el camí de marxa enrere?

La maduresa per desplegar escala amb el dany potencial de l'agent. Un agent que revisa i resumeix documents interns és menys arriscat que un que envia correus a clients. Menys risc = desplegament més ràpid; més risc = més barreres de seguretat abans de desplegar.

3. Com s'observarà l'agent?

Els agents en producció necessiten una observabilitat especialitzada:

Traces de decisió: la cadena de raonament de cada decisió, no només el resultat
Registres de crides a eines: a quins sistemes externs s'ha accedit, amb quines entrades i amb quins resultats
Mètriques de latència i cost: per agent, per tasca, per usuari
Senyals de qualitat: feedback dels usuaris, resultats posteriors, errors detectats
Violacions de seguretat: intents de sortir de l'abast, infraccions de política, comportaments anòmals

Aquesta observabilitat ha d'estar a l'abast tant dels humans que investiguen incidents concrets com dels sistemes automàtics que agreguen patrons. «Ja afegirem observabilitat més endavant» és exactament com els agents arriben a producció i provoquen incidents que ningú no sap explicar.

4. Qui respon dels resultats de l'agent?

Tot agent autònom necessita un propietari humà — no pas un comitè. El propietari:

Segueix les mètriques de qualitat
Reacciona quan l'agent produeix resultats dolents
Aprova les ampliacions d'abast
Retira l'agent quan deixa de funcionar
Respon de l'impacte de negoci de l'agent

Sense un únic responsable, els agents van a la deriva. La qualitat es degrada. Ningú no se n'adona fins que un incident obliga a mirar-s'ho.

El model de desplegament en tres fases

Per a cada cas d'ús d'agent autònom, el desplegament hauria de passar per tres fases. Saltar-se'n alguna és la causa més habitual d'incidents en producció.

Fase 1: mode suggeriment (de setmanes a mesos)

L'agent produeix resultats, però no actua. Un humà revisa cada resultat i decideix si l'aplica.

Objectiu: guanyar confiança en la qualitat de l'agent, identificar els modes de fallada i afinar prompts i eines amb dades reals.

Criteri de sortida: els suggeriments de l'agent encerten prou sovint, i els seus errors són prou inofensius, perquè el cost principal sigui la revisió mateixa.

Fase 2: execució supervisada (mesos)

L'agent actua de manera autònoma, però els humans revisen les accions a posteriori. Les accions de baix risc poden no revisar-se una per una; les d'alt risc es revisen abans que tinguin efecte (aprovació amb un humà al circuit).

Objectiu: validar que l'agent es comporta correctament quan pren accions reals, i refinar la frontera entre el que és autònom i el que es revisa.

Criteri de sortida: l'agent opera de manera fiable dins del seu abast; els problemes són prou escassos per tractar-los com a excepcions.

Fase 3: operació autònoma (permanent)

L'agent opera sense aprovació humana acció per acció. Els humans segueixen mètriques agregades, investiguen anomalies i gestionen les escalades.

Atenció: la fase 3 no vol dir «sense humans». Vol dir «humans implicats al nivell de supervisió, no al nivell operatiu».

La governança és arquitectura, no una llista de comprovació

Els agents autònoms en producció necessiten una arquitectura de governança que vagi més enllà d'una llista de comprovació. Els components que importen:

Registres de decisions

Cada decisió de l'agent — amb la cadena de raonament que hi ha al darrere — queda registrada. No només «ha enviat un correu a l'usuari X», sinó «a partir del contingut del tiquet Y i de l'historial de l'usuari Z, l'agent ha conclòs que la resposta estàndard A era l'adequada i l'ha enviada».

Aquests registres serveixen per a tres coses: depurar (per què ha fet això?), auditar (requisits reguladors, peticions de clients) i millorar (els patrons entre decisions orienten l'evolució de l'agent).

Capa d'aplicació de polítiques

Entre l'agent i les seves eines, una capa de polítiques imposa què té permès fer. Encara que l'agent, raonant, es convenci que una acció és correcta, la capa de polítiques la rebutja si infringeix les regles definides.

Les polítiques inclouen:

Restriccions d'abast (l'agent només pot accedir als sistemes X)
Controls de llindar (l'agent només pot comprometre's a accions per sota d'un import Y)
Requisits d'aprovació (l'agent ha d'escalar si es detecta la condició Z)
Polítiques de seguretat (l'agent no pot prendre accions irreversibles sense aprovació humana)

La capa de polítiques és la diferència entre «l'agent ha decidit no fer res dolent» i «l'agent no pot fer res dolent». El segon és el que necessiten els sistemes en producció.

Pipeline d'avaluació

Avalua l'agent contínuament amb un conjunt representatiu d'escenaris. En producció, la qualitat es degrada en silenci — si no la mesures activament, no te n'assabentes.

El pipeline d'avaluació hauria d'incloure:

Casos de prova de referència (entrades amb resposta correcta coneguda i resultats esperats)
Entrades adversàries (escenaris dissenyats per posar a prova els casos límit)
Avaluació de mostres de producció (revisió humana de mostres aleatòries de producció)
Proves de regressió (cada canvi de prompt o d'eina s'executa contra el conjunt d'avaluació)

Kill switch

Els agents en producció necessiten poder-se desactivar a l'instant quan alguna cosa va malament. No pas «obre un tiquet per fer marxa enrere». Un kill switch literal: un botó o una crida d'API que impedeix que l'agent faci cap acció més.

Prova el kill switch regularment. El dia que el necessitis no és el dia per descobrir que no funciona.

Resposta a incidents

Quan un agent autònom produeix un mal resultat, hi ha un incident. El teu procés de resposta a incidents ha d'incloure:

Triatge específic d'agents (ha estat culpa de l'agent o d'un problema extern?)
Anàlisi de la causa arrel (problema de prompt? d'eina? comportament del model? cas límit?)
Resolució (corregir el problema, reentrenar, ajustar les polítiques)
Comunicació (als usuaris afectats, als interessats interns)
Post-mortem (què n'hem après i com evitem que es repeteixi)

L'organigrama també ha de canviar

Desplegar agents autònoms canvia com s'estructuren les organitzacions d'enginyeria. Els canvis que importen:

Rol nou: product manager d'agents. Algú que respon del rendiment, l'abast i l'evolució de l'agent. És un rol transversal que combina criteri de producte, cultura d'enginyeria i disciplina operativa.

Rol nou: enginyer de fiabilitat d'IA. Com un site reliability engineer, però per a sistemes d'agents. Centrat en observabilitat, resposta a incidents, capacitat i millora contínua de la pila d'agents.

Rol que canvia: desenvolupador. Els enginyers passen d'escriure lògica de negoci a dissenyar comportaments d'agents — prompt engineering, disseny d'eines, marcs d'avaluació, barreres de seguretat.

Rol que canvia: operacions. Els operadors humans que abans feien la feina directament ara supervisen agents que la fan. Les habilitats passen de fer la feina a monitorar-la, gestionar excepcions i jutjar la qualitat.

Les organitzacions que no fan aquests canvis acostumen a desplegar agents que prometen molt en proves i fallen en producció perquè ningú no en respon operativament.

La infraestructura que importa

La pila d'infraestructura per a agents autònoms en producció el 2025:

Runtime d'agents: capa d'orquestració que gestiona el cicle de vida de l'agent, l'accés a eines, la memòria i l'estat.
Catàleg d'eines: registre centralitzat de les eines a què l'agent pot accedir, amb esquemes, controls d'accés i seguiment d'ús.
Plataforma d'avaluació: sistemes que avaluen contínuament els resultats de l'agent contra conjunts de referència i mostres de producció.
Capa d'observabilitat: registres de decisions, seguiment de crides a eines, mètriques de qualitat, detecció d'incidents.
Motor de polítiques: capa que imposa límits a allò que els agents poden fer.
Sistema de feedback: mecanismes per recollir valoracions humanes dels resultats de l'agent i reinjectar-les en la millora.

Hi ha eines emergents, de codi obert i comercials, que cobreixen parts d'aquesta pila. La majoria d'organitzacions, el 2025, se la munten amb una barreja de components. És previsible que es consolidi en plataformes més integrades durant el 2026–2027.

Per on començaria

Si encara no has desplegat agents autònoms en producció, aquest és el patró d'arrencada que jo seguiria:

Tria un sol cas d'ús acotat, mesurable i tolerant amb els errors. (Bons exemples: agents per a eines internes de desenvolupament, triatge de suport, resum de documents.)
Desplega en mode suggeriment durant un mínim de 4–8 setmanes abans de passar a execució. Mesura la qualitat amb rigor.
Construeix la governança alhora que l'agent, no després. Registres de decisions, aplicació de polítiques, kill switch, pipeline d'avaluació — tot des del primer dia.
Posa-hi un únic propietari que respongui dels resultats de l'agent.
Mesura l'impacte de negoci amb honestedat. Si l'agent no aporta valor mesurable en el resultat que busques, itera o retira'l.

Evita:

Començar amb desplegaments autònoms d'alt risc abans de tenir experiència operativa
Escalar a múltiples agents abans que el primer funcioni de manera fiable
Tractar la governança com a burocràcia en lloc de com a disseny tècnic

L'avantatge s'acumula

El contraargument més sòlid és esperar: les eines són immadures, la pila es consolidarà i les plataformes del 2027 faran que la lampisteria muntada a mà d'avui sembli antiquada. És una lectura raonable de la tecnologia — i una mala lectura de l'organització. Les plataformes maduren soles; el múscul operatiu no ve de sèrie amb elles.

La urgència no és que els agents autònoms siguin el futur — és que la pressió competitiva ja s'està formant. Les empreses que construeixin capacitat operativa amb agents el 2025 acumularan avantatges durant el 2026 i més enllà. La corba d'aprenentatge de les operacions amb agents és pronunciada; les organitzacions que comencin ara l'hauran superada quan els competidors tot just hi entrin.

És un patró habitual en els canvis de plataforma: els primers a moure's no guanyen per haver estat els primers, guanyen perquè van fer múscul operatiu mentre els altres esperaven que la tecnologia s'estabilitzés.

I això ens torna al principi: l'automatització falla com un bug; l'autonomia falla com un forat de governança. Els CTO que interioritzin ara aquesta distinció són els que tindran els agents encara en marxa — amb seguretat — quan la pila s'assenti.

Estàs construint el teu primer agent autònom però et falta l'equip per executar-ne la governança i les operacions? Parla amb un CTO sobre com estructurar un squad nearshore amb enginyeria d'IA, operacions d'agents i experiència en fiabilitat.