← Tornar a tots els articles
Reptes

D'Automatització a Autonomia: Un Full de Ruta de CTO per Desplegar Agents d'IA Autònoms

Per Marc Molas·28 de setembre del 2025·12 min de lectura

Automatització i autonomia no són el mateix. La distinció importa més del que sona.

L'automatització és determinista: un sistema executa un flux predefinit amb inputs predefinits i punts de decisió predefinits. Si A, fes B. Si C, fes D. Cada resultat va ser imaginat per un humà per endavant, escrit en regles i provat.

L'autonomia és generativa: a un sistema se li dona un objectiu i un conjunt d'eines, i decideix com assolir l'objectiu. El camí no està predefinit. Les decisions no estan pre-escrites. El sistema raona, actua, observa i s'ajusta — sovint de maneres que el dissenyador original no va anticipar.

Aquesta diferència canvia tot sobre com dissenyes, despleguis i governes el sistema. Un framework d'automatització que falla és normalment un bug — el desenvolupador no va gestionar un cas. Un framework d'autonomia que falla és un problema de governança — l'agent va prendre una decisió dins del seu scope que va tenir conseqüències que ningú no volia.

2025 és l'any en què els agents d'IA autònoms passen de demos de recerca a desplegaments en producció. A final d'any, s'espera que gairebé la meitat de les empreses globalment tinguin tecnologies d'IA incrustades en els seus processos, i una porció significativa d'aquest desplegament és autònom, no només automatitzat. Per als CTOs, això crea una pregunta concreta: com despleguis agents autònoms de manera segura, de maneres que entreguin valor real sense crear risc organitzacional?

Aquesta és la full de ruta.

Què Fan Realment els Agents Autònoms el 2025

Abans de la full de ruta, una vista aterrada de l'estat actual. Els agents que realment estan funcionant en producció el 2025 fan típicament coses com:

  • Triage i resolució de suport al client: llegint peticions entrants, consultant sistemes, redactant respostes, escalant quan estan insegurs.
  • Tasques de desenvolupament de programari: llegint tickets, implementant canvis, executant tests, obrint PRs, responent comentaris de revisió — amb humans aprovant abans del merge.
  • Anàlisi de dades i reporting: extraient dades de múltiples fonts, executant anàlisi, generant informes, marcant anomalies.
  • Fluxos de procurement i contractes: avaluant vendors contra criteris, negociant termes estàndard, executant dins de paràmetres aprovats.
  • Producció de contingut: redactant, editant, traduint, formatant — sovint amb revisió humana a checkpoints clau.
  • Operacions IT: diagnosticant problemes, executant remediació estàndard, escalant quan apareixen patrons no familiars.

Què encara no funciona bé en producció:

  • Decisions estratègiques amb alts riscs i contextos novedosos
  • Coordinació multi-agent a escala (encara fràgil en la majoria de sistemes reals)
  • Tasques d'horitzó llarg que abasten dies o setmanes sense checkpoints humans
  • Accions d'alta precisió amb conseqüències irreversibles (transaccions financeres més enllà de petits imports, comunicacions sensibles, eliminació de dades)

El full de ruta s'hauria de centrar en el que realment funciona — expandint patrons llestos per a producció — no en el que sembla prometedor en demos.

Les Quatre Preguntes de Readiness

Abans de desplegar qualsevol agent autònom, quatre preguntes de readiness. Si alguna resposta és vaga, no estàs llest.

1. Què pot fer específicament aquest agent i què no?

Els agents autònoms més perillosos són els que tenen límits indefinits. Un agent que "ajuda amb el suport al client" és un xec en blanc. Un agent que "gestiona peticions Tier-1 de reset de contrasenya per a usuaris verificats, amb escalat a suport humà per a qualsevol desviació del flux estàndard" és un desplegament amb scope.

La definició de scope hauria de respondre:

  • Quines eines pot cridar l'agent?
  • Quines decisions pot prendre sense aprovació humana?
  • Quins llindars (imports de dòlars, volums de dades, nivells de severitat) requereixen escalat?
  • Quins inputs disparen l'agent vs. ruten a humans?

Si no pots especificar aquests, l'agent no està llest.

2. Què passa quan l'agent s'equivoca?

Cada agent autònom produirà outputs equivocats a vegades. La pregunta és què passa quan ho fa:

  • Són reversibles les accions de l'agent? (Enviar un email no ho és. Marcar un ítem per a revisió sí.)
  • Poden els humans detectar errors abans que es composin? (Logging, audit trails, cues de revisió.)
  • Quin és el dany si un error no es detecta? (Financer, reputacional, de compliance, operatiu.)
  • Quin és el camí de rollback?

El readiness de desplegament escala amb el dany potencial de l'agent. Un agent que revisa i resumeix documents interns és de menor risc que un que envia emails orientats al client. Menor risc = desplegament més ràpid; major risc = més guardrails abans del desplegament.

3. Com s'observarà l'agent?

Els agents en producció necessiten observabilitat especialitzada:

  • Decision traces: la cadena de raonament per a cada decisió, no només l'output
  • Logs de crides a tools: quins sistemes externs es van accedir, amb quins inputs, produint quins outputs
  • Mètriques de latència i cost: per agent, per tasca, per usuari
  • Senyals de qualitat: feedback de l'usuari, outcomes aigües avall, errors detectats
  • Violacions de seguretat: intents d'excedir l'scope, violacions de política, comportament anòmal

L'observabilitat hauria d'estar disponible per a humans que necessitin investigar incidents específics i per a sistemes automatitzats que agreguin patrons. "Afegirem observabilitat després" és com els agents van a producció i creen incidents que ningú no pot explicar.

4. Qui és propietari dels outcomes de l'agent?

Cada agent autònom necessita un propietari humà — no un comitè. El propietari:

  • Monitoritza mètriques de qualitat
  • Respon quan l'agent produeix outputs dolents
  • Aprova expansions de scope
  • Retira l'agent quan ja no funciona
  • És accountable de l'impacte de negoci de l'agent

Sense accountability de propietari únic, els agents deriven. La qualitat es degrada. Ningú no nota fins que un incident força l'atenció.

El Model de Desplegament en Tres Fases

Per a cada cas d'ús d'agent autònom, el desplegament s'hauria de moure a través de tres fases. Saltar-se fases és la causa més comuna d'incidents en producció.

Fase 1: Mode suggeriment (setmanes a mesos)

L'agent produeix outputs, però no pren accions. Un humà revisa cada output i decideix si actua sobre ell.

Propòsit: construir confiança en la qualitat de l'agent, identificar modes de fallada, afinar prompts i tools basant-se en dades reals.

Criteri de sortida: els suggeriments de l'agent són correctes amb prou freqüència, i els seus errors són prou segurs, com perquè l'overhead de revisió sigui el cost principal.

Fase 2: Execució supervisada (mesos)

L'agent pren accions autònomament, però els humans revisen les accions després del fet. Les accions de baix risc poden no ser revisades individualment; les accions d'alt risc es revisen abans que tinguin efecte (aprovació human-in-the-loop).

Propòsit: validar que l'agent rendeix correctament en prendre accions reals, refinar els límits del que és autònom vs. revisat.

Criteri de sortida: l'agent opera fiablement dins del seu scope; els issues són prou rars com per ser gestionats com a excepcions.

Fase 3: Operació autònoma (contínua)

L'agent opera sense aprovació humana per acció. Els humans monitoritzen mètriques agregades, investiguen anomalies i gestionen escalats.

Nota: Fase 3 no és "sense humans involucrats". És "humans involucrats a nivell supervisor, no a nivell operatiu".

Arquitectura de Governança

Els agents autònoms en producció necessiten una arquitectura de governança que sigui més que un checklist. Els components que importen:

Decision logs

Cada decisió de l'agent — i la cadena de raonament darrere — es registra. No només "va enviar email a usuari X" sinó "basant-se en el contingut del ticket Y i l'historial de l'usuari Z, l'agent va concloure que la resposta estàndard A era apropiada i la va enviar".

Aquests logs serveixen a tres propòsits: debugging (per què va fer això?), auditing (requisits regulatoris, peticions de clients), i millora (patrons a través de decisions informen l'evolució de l'agent).

Capa d'enforcement de polítiques

Entre l'agent i les seves tools, una capa de polítiques fa enforcement del que l'agent pot fer. Fins i tot si l'agent raona cap a pensar que una acció és correcta, la capa de polítiques la rebutja si viola regles definides.

Les polítiques inclouen:

  • Restriccions d'scope (l'agent només pot accedir a sistemes X)
  • Controls de llindar (l'agent només pot comprometre's a accions sota Y$)
  • Requisits d'aprovació (l'agent ha d'escalar si es detecta la condició Z)
  • Polítiques de seguretat (l'agent no ha de prendre accions irreversibles sense aprovació humana)

La capa de polítiques és la diferència entre "l'agent va decidir no fer coses dolentes" i "l'agent no pot fer coses dolentes". El segon és el que necessiten els sistemes en producció.

Pipeline d'avaluació

Avaluar contínuament l'agent en un set representatiu d'escenaris. La qualitat es degrada silenciosament en producció — si no estàs mesurant activament, no estàs sabent.

El pipeline d'eval hauria d'incloure:

  • Casos de test daurats (inputs coneguts com a correctes i outputs esperats)
  • Inputs adversarials (escenaris dissenyats per provar edge cases)
  • Avaluació de mostres de producció (revisió humana de mostres aleatòries de producció)
  • Regression testing (cada canvi de prompt o tool s'executa contra el set d'eval)

Kill switch

Els agents en producció necessiten una manera de ser deshabilitats immediatament quan alguna cosa va malament. No "obrir un ticket per fer rollback". Kill switch literal — un botó o crida API que atura l'agent de prendre qualsevol acció més.

Prova el kill switch regularment. L'única vegada que es necessita no és el moment per descobrir que no funciona.

Resposta a incidents

Quan un agent autònom produeix un outcome dolent, hi ha un incident. El teu procés de resposta a incidents necessita incloure:

  • Triage específic d'agent (va ser culpa de l'agent o un issue extern?)
  • Anàlisi de causa arrel (issue de prompt? issue de tool? comportament del model? edge case?)
  • Remediació (arreglar l'issue, reentrenar, ajustar polítiques)
  • Comunicació (a usuaris afectats, a stakeholders interns)
  • Post-mortem (què vam aprendre, com prevenim la recurrència)

El Canvi Organitzacional

Desplegar agents autònoms canvia com s'estructuren les organitzacions d'enginyeria. Els canvis que importen:

Nou rol: product manager d'agent. Algú que és propietari del rendiment, scope i evolució de l'agent. Aquest és un rol cross-funcional combinant sensibilitat de producte, alfabetització d'enginyeria i disciplina operativa.

Nou rol: AI reliability engineer. Com un site reliability engineer però per a sistemes d'agents. Es centra en observabilitat, resposta a incidents, capacitat i millora contínua de l'stack d'agents.

Rol canviat: desenvolupador. Els enginyers passen d'escriure lògica de negoci a dissenyar comportaments d'agents — prompt engineering, disseny de tools, frameworks d'avaluació, guardrails.

Rol canviat: operacions. Els operadors humans que solien fer la feina directament ara supervisen agents fent la feina. El skill set passa de fer a monitoritzar, gestió d'excepcions i judici de qualitat.

Les organitzacions que no fan aquests canvis tendeixen a desplegar agents que semblen prometedors en testing i fallen en producció perquè ningú no és accountable d'ells operativament.

La Infraestructura Que Importa

L'stack d'infraestructura per a agents autònoms en producció el 2025:

  • Runtime d'agent: capa d'orquestració que gestiona cicle de vida de l'agent, accés a tools, memòria i estat.
  • Catàleg de tools: registre centralitzat de tools que l'agent pot accedir, amb esquemes, controls d'accés i tracking d'ús.
  • Plataforma d'avaluació: sistemes que avaluen contínuament els outputs de l'agent contra sets daurats i mostres de producció.
  • Capa d'observabilitat: decision logs, tracking de crides a tools, mètriques de qualitat, detecció d'incidents.
  • Motor de polítiques: capa d'enforcement que restringeix el que els agents poden fer.
  • Sistema de feedback: mecanismes per recollir feedback humà sobre outputs de l'agent i retroalimentar-lo en la millora.

El tooling emergent open-source i comercial cobreix parts d'aquest stack. La majoria d'organitzacions el 2025 estan assemblant el seu propi d'una barreja de components. Espera que aquest stack es consolidi en plataformes més integrades al llarg de 2026–2027.

Per On Començar

Per als CTOs que encara no han desplegat agents autònoms en producció, el patró d'arrencada:

  1. Tria un cas d'ús que sigui acotat, mesurable i perdonador d'errors. (Bons exemples: agents d'eines internes de dev, triage de suport, resum de documents.)
  2. Desplega en mode suggeriment durant almenys 4–8 setmanes abans de passar a execució. Mesura la qualitat rigorosament.
  3. Construeix la governança mentre construeixes l'agent, no després. Decision logs, enforcement de polítiques, kill switch, pipeline d'eval — tot des del dia u.
  4. Nomena un únic propietari que sigui accountable dels outcomes de l'agent.
  5. Mesura l'impacte de negoci honestament. Si l'agent no està entregant valor mesurable en l'outcome objectiu, itera o retira.

Evita:

  • Començar amb desplegament autònom d'alt risc abans de tenir experiència operativa
  • Escalar a múltiples agents abans que el primer funcioni fiablement
  • Tractar la governança com a overhead burocràtic en lloc de disseny tècnic

La Dinàmica Competitiva

La urgència no és que els agents autònoms siguin el futur — és que la pressió competitiva ja s'està formant. Les empreses que construeixin capacitat operativa amb agents el 2025 estan composant avantatges al llarg de 2026 i més enllà. La corba d'aprenentatge en operacions d'agents és pronunciada; les organitzacions que comencin ara hauran superat la corba quan els competidors estiguin just començant.

Aquest és un patró comú amb canvis de plataforma: els early movers no guanyen perquè fossin els primers, guanyen perquè van construir múscul operatiu mentre altres esperaven que la tecnologia s'estabilitzés.


Construint el teu primer agent autònom però et falta la forma d'equip per executar governança i operacions? Parla amb un CTO sobre estructurar un squad nearshore amb enginyeria d'IA, agent ops i expertise de reliability.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.