Retos

De la automatización a la autonomía: la hoja de ruta de un CTO para desplegar agentes de IA autónomos

Por Marc Molas·28 de septiembre de 2025·12 min de lectura

Automatización y autonomía no son lo mismo, y la mayoría de las estrategias de agentes que me piden revisar las confunden. La distinción importa más de lo que parece.

La automatización es determinista: un sistema ejecuta un flujo de trabajo predefinido, con entradas predefinidas y puntos de decisión predefinidos. Si A, haz B. Si C, haz D. Cada resultado lo imaginó antes un humano, lo escribió en reglas y lo probó.

La autonomía es generativa: al sistema se le da un objetivo y un conjunto de herramientas, y él decide cómo alcanzarlo. El camino no está predefinido. Las decisiones no vienen escritas en un guion. El sistema razona, actúa, observa y se ajusta — a menudo de maneras que su diseñador no anticipó.

Esta diferencia lo cambia todo: cómo diseñas, cómo despliegas y cómo gobiernas el sistema. Cuando falla un framework de automatización, suele ser un bug — el desarrollador no contempló un caso. Cuando falla un framework de autonomía, es un problema de gobernanza — el agente tomó una decisión dentro de su ámbito con consecuencias que nadie quería.

2025 es el año en que los agentes de IA autónomos pasan de las demos de investigación a los despliegues en producción — y una parte creciente de lo que se despliega es autónomo, no solo automatizado. Para un CTO, eso convierte un debate abstracto en una pregunta concreta: ¿cómo despliegas agentes autónomos de forma segura, de manera que aporten valor real sin generar riesgo organizativo?

Esta es la hoja de ruta.

Qué hacen de verdad los agentes autónomos en 2025

Antes de la hoja de ruta, una foto realista del estado actual. Los agentes que de verdad funcionan en producción en 2025 suelen dedicarse a cosas como:

Triaje y resolución de soporte al cliente: leen las peticiones entrantes, consultan sistemas, redactan respuestas y escalan cuando dudan.
Tareas de desarrollo de software: leen tickets, implementan cambios, ejecutan tests, abren PRs y responden a los comentarios de revisión — con humanos aprobando antes del merge.
Análisis de datos e informes: extraen datos de varias fuentes, ejecutan análisis, generan informes y señalan anomalías.
Flujos de compras y contratos: evalúan proveedores contra criterios, negocian condiciones estándar y ejecutan dentro de parámetros aprobados.
Producción de contenido: redactan, editan, traducen y dan formato — a menudo con revisión humana en puntos de control clave.
Operaciones de TI: diagnostican problemas, ejecutan remediaciones estándar y escalan cuando aparecen patrones desconocidos.

Lo que todavía no funciona bien en producción:

Decisiones estratégicas con mucho en juego y contextos nuevos
Coordinación multiagente a escala (sigue siendo frágil en la mayoría de los sistemas reales)
Tareas de horizonte largo, de días o semanas, sin puntos de control humanos
Acciones de alta precisión con consecuencias irreversibles (transacciones financieras más allá de importes pequeños, comunicaciones sensibles, borrado de datos)

La hoja de ruta debería centrarse en lo que ya funciona — ampliar los patrones listos para producción —, no en lo que promete en una demo.

Cuatro preguntas que deciden si estás preparado

Antes de desplegar cualquier agente autónomo, yo hago cuatro preguntas de preparación. Si alguna respuesta es vaga, no estás preparado.

1. ¿Qué puede hacer exactamente este agente, y qué no?

Los agentes autónomos más peligrosos son los que tienen los límites sin definir. Un agente que «ayuda con el soporte al cliente» es un cheque en blanco. Un agente que «gestiona peticiones de nivel 1 de restablecimiento de contraseña para usuarios verificados, con escalado a soporte humano ante cualquier desviación del flujo estándar» es un despliegue acotado.

La definición de alcance debería responder:

¿Qué herramientas puede invocar el agente?
¿Qué decisiones puede tomar sin aprobación humana?
¿Qué umbrales (importes, volúmenes de datos, niveles de severidad) exigen escalado?
¿Qué entradas activan al agente y cuáles se enrutan a humanos?

Si no puedes concretar esto, el agente no está listo.

2. ¿Qué pasa cuando el agente se equivoca?

Todo agente autónomo producirá salidas erróneas alguna vez. La pregunta es qué ocurre entonces:

¿Son reversibles sus acciones? (Enviar un email no lo es. Marcar un elemento para revisión, sí.)
¿Pueden los humanos detectar los errores antes de que se acumulen? (Logs, trazas de auditoría, colas de revisión.)
¿Cuál es el daño si un error pasa inadvertido? (Financiero, reputacional, de cumplimiento, operativo.)
¿Cuál es la vía de rollback?

La preparación para el despliegue escala con el daño potencial del agente. Un agente que revisa y resume documentos internos es menos arriesgado que uno que envía emails a clientes. Menos riesgo = despliegue más rápido; más riesgo = más salvaguardas antes de desplegar.

3. ¿Cómo se va a observar al agente?

Los agentes en producción necesitan una observabilidad especializada:

Trazas de decisión: la cadena de razonamiento de cada decisión, no solo el resultado
Logs de llamadas a herramientas: a qué sistemas externos se accedió, con qué entradas y con qué salidas
Métricas de latencia y coste: por agente, por tarea, por usuario
Señales de calidad: feedback de los usuarios, resultados aguas abajo, errores detectados
Violaciones de seguridad: intentos de exceder el alcance, incumplimientos de política, comportamiento anómalo

La observabilidad debe estar disponible tanto para los humanos que investigan incidentes concretos como para los sistemas automáticos que agregan patrones. «Ya añadiremos observabilidad más adelante» es la forma en que los agentes llegan a producción y generan incidentes que nadie sabe explicar.

4. ¿Quién responde por los resultados del agente?

Todo agente autónomo necesita un dueño humano — no un comité. El dueño:

Vigila las métricas de calidad
Reacciona cuando el agente produce malos resultados
Aprueba las ampliaciones de alcance
Retira el agente cuando deja de funcionar
Responde del impacto del agente en el negocio

Sin la responsabilidad de un único dueño, los agentes van a la deriva. La calidad se degrada. Nadie se da cuenta hasta que un incidente obliga a prestar atención.

El modelo de despliegue en tres fases

Para cada caso de uso de agente autónomo, el despliegue debería pasar por tres fases. Saltarse fases es la causa más común de incidentes en producción.

Fase 1: modo sugerencia (de semanas a meses)

El agente produce salidas, pero no ejecuta acciones. Un humano revisa cada salida y decide si actuar sobre ella.

Propósito: ganar confianza en la calidad del agente, identificar los modos de fallo y afinar prompts y herramientas con datos reales.

Criterio de salida: las sugerencias del agente aciertan con la frecuencia suficiente, y sus errores son lo bastante inocuos, como para que el coste principal sea la propia revisión.

Fase 2: ejecución supervisada (meses)

El agente actúa de forma autónoma, pero los humanos revisan sus acciones a posteriori. Las de bajo riesgo pueden no revisarse una a una; las de alto riesgo se revisan antes de que surtan efecto (aprobación con humano en el bucle).

Propósito: validar que el agente se comporta correctamente al ejecutar acciones reales y refinar la frontera entre lo autónomo y lo revisado.

Criterio de salida: el agente opera con fiabilidad dentro de su alcance; los problemas son tan poco frecuentes que se gestionan como excepciones.

Fase 3: operación autónoma (continua)

El agente opera sin aprobación humana por acción. Los humanos vigilan métricas agregadas, investigan anomalías y atienden los escalados.

Nota: la fase 3 no significa «sin humanos». Significa «humanos implicados en el nivel de supervisión, no en el operativo».

La gobernanza es arquitectura, no un checklist

Los agentes autónomos en producción necesitan una arquitectura de gobernanza que vaya más allá de una lista de comprobación. Los componentes que importan:

Registros de decisión

Cada decisión del agente — y la cadena de razonamiento que la sustenta — queda registrada. No solo «envió un email al usuario X», sino «a partir del contenido del ticket Y y del historial del usuario Z, el agente concluyó que la respuesta estándar A era la adecuada y la envió».

Estos registros sirven para tres cosas: depurar (¿por qué hizo eso?), auditar (requisitos regulatorios, peticiones de clientes) y mejorar (los patrones entre decisiones orientan la evolución del agente).

Capa de aplicación de políticas

Entre el agente y sus herramientas, una capa de políticas impone lo que el agente tiene permitido hacer. Aunque el agente se convenza razonando de que una acción es correcta, la capa de políticas la rechaza si viola las reglas definidas.

Las políticas incluyen:

Restricciones de alcance (el agente solo puede acceder a los sistemas X)
Controles de umbral (el agente solo puede comprometer acciones por debajo del importe Y)
Requisitos de aprobación (el agente debe escalar si detecta la condición Z)
Políticas de seguridad (el agente no puede ejecutar acciones irreversibles sin aprobación humana)

La capa de políticas es la diferencia entre «el agente decidió no hacer nada malo» y «el agente no puede hacer nada malo». Lo segundo es lo que necesita un sistema en producción.

Pipeline de evaluación

Evalúa al agente de forma continua sobre un conjunto representativo de escenarios. La calidad se degrada en silencio en producción — si no la mides activamente, no lo sabes.

El pipeline de evaluación debería incluir:

Casos de prueba de referencia (entradas con resultado correcto conocido y salidas esperadas)
Entradas adversarias (escenarios diseñados para poner a prueba los casos límite)
Evaluación de muestras de producción (revisión humana de muestras aleatorias de producción)
Pruebas de regresión (cada cambio de prompt o de herramienta se ejecuta contra el conjunto de evaluación)

Kill switch

Los agentes en producción necesitan poder desactivarse de inmediato cuando algo va mal. No «abre un ticket para hacer rollback». Un kill switch literal: un botón o una llamada a la API que impide al agente ejecutar ninguna acción más.

Prueba el kill switch con regularidad. El día que lo necesites no es el día para descubrir que no funciona.

Respuesta a incidentes

Cuando un agente autónomo produce un mal resultado, hay un incidente. Tu proceso de respuesta a incidentes debe incluir:

Triaje específico de agente (¿fue culpa del agente o de un problema externo?)
Análisis de causa raíz (¿problema de prompt? ¿de herramienta? ¿comportamiento del modelo? ¿caso límite?)
Remediación (corregir el problema, reentrenar, ajustar políticas)
Comunicación (a los usuarios afectados, a los stakeholders internos)
Post-mortem (qué hemos aprendido y cómo evitamos que se repita)

El organigrama también tiene que cambiar

Desplegar agentes autónomos cambia la estructura de las organizaciones de ingeniería. Los cambios que importan:

Rol nuevo: product manager de agentes. Alguien que responde del rendimiento, el alcance y la evolución del agente. Es un rol transversal que combina criterio de producto, cultura de ingeniería y disciplina operativa.

Rol nuevo: ingeniero de fiabilidad de IA. Como un site reliability engineer, pero para sistemas de agentes. Se centra en observabilidad, respuesta a incidentes, capacidad y mejora continua del stack de agentes.

Rol que cambia: desarrollador. Los ingenieros pasan de escribir lógica de negocio a diseñar comportamientos de agentes — prompt engineering, diseño de herramientas, frameworks de evaluación, salvaguardas.

Rol que cambia: operaciones. Los operadores humanos que antes hacían el trabajo directamente ahora supervisan a los agentes que lo hacen. El conjunto de habilidades pasa de ejecutar a vigilar, gestionar excepciones y juzgar la calidad.

Las organizaciones que no hacen estos cambios acaban desplegando agentes que prometen en las pruebas y fallan en producción, porque nadie responde de ellos en el día a día.

La infraestructura que importa

El stack de infraestructura para agentes autónomos en producción en 2025:

Runtime de agentes: capa de orquestación que gestiona el ciclo de vida del agente, el acceso a herramientas, la memoria y el estado.
Catálogo de herramientas: registro centralizado de las herramientas a las que el agente puede acceder, con esquemas, controles de acceso y seguimiento de uso.
Plataforma de evaluación: sistemas que evalúan continuamente las salidas del agente contra conjuntos de referencia y muestras de producción.
Capa de observabilidad: registros de decisión, seguimiento de llamadas a herramientas, métricas de calidad, detección de incidentes.
Motor de políticas: capa de aplicación que restringe lo que los agentes pueden hacer.
Sistema de feedback: mecanismos para recoger valoraciones humanas sobre las salidas del agente y reinyectarlas en la mejora.

El tooling emergente, open source y comercial, cubre partes de este stack. La mayoría de las organizaciones en 2025 están ensamblando el suyo a partir de una mezcla de componentes. Es de esperar que el stack se consolide en plataformas más integradas a lo largo de 2026–2027.

Por dónde empezaría yo

Si todavía no has desplegado agentes autónomos en producción, este es el patrón de arranque que yo seguiría:

Elige un único caso de uso acotado, medible y tolerante a errores. (Buenos ejemplos: agentes para herramientas internas de desarrollo, triaje de soporte, resumen de documentos.)
Despliega en modo sugerencia durante al menos 4–8 semanas antes de pasar a ejecución. Mide la calidad con rigor.
Construye la gobernanza a la vez que construyes el agente, no después. Registros de decisión, aplicación de políticas, kill switch, pipeline de evaluación — todo desde el primer día.
Nombra a un único dueño que responda de los resultados del agente.
Mide el impacto en el negocio con honestidad. Si el agente no aporta valor medible en el resultado objetivo, itera o retíralo.

Evita:

Empezar por un despliegue autónomo de alto riesgo sin experiencia operativa previa
Escalar a varios agentes antes de que el primero funcione con fiabilidad
Tratar la gobernanza como burocracia en lugar de como diseño técnico

La ventaja se acumula

El contraargumento más sólido es esperar: el tooling está verde, el stack se consolidará y las plataformas de 2027 harán que la fontanería artesanal de hoy parezca pintoresca. Es una lectura justa de la tecnología — y una mala lectura de la organización. Las plataformas maduran solas; el músculo operativo no viene de serie con ellas.

La urgencia no es que los agentes autónomos sean el futuro — es que la presión competitiva ya se está formando. Las empresas que construyan capacidad operativa con agentes en 2025 estarán acumulando ventaja durante 2026 y más allá. La curva de aprendizaje de las operaciones con agentes es empinada; las organizaciones que empiecen ahora la habrán superado cuando sus competidores estén apenas arrancando.

Es un patrón habitual en los cambios de plataforma: los pioneros no ganan por haber llegado primero, ganan porque construyeron músculo operativo mientras los demás esperaban a que la tecnología se estabilizara.

Lo que nos devuelve al principio: la automatización falla como un bug; la autonomía falla como un hueco de gobernanza. Los CTOs que interioricen hoy esa distinción son los que tendrán a sus agentes funcionando — con seguridad — cuando el stack se asiente.

¿Estás construyendo tu primer agente autónomo pero te falta el equipo para llevar la gobernanza y las operaciones? Habla con un CTO sobre cómo montar un squad nearshore con ingeniería de IA, operaciones de agentes y experiencia en fiabilidad.