Más allá del escalado: los nuevos espacios de optimización para el progreso de la IA
En la parte 1 cubrimos por qué el escalado ha dejado de ser un eje fiable de progreso. En la parte 2 recorrimos las cuatro palancas que mueven la tasa de retorno real por unidad de cómputo. El cierre natural de la serie —y la parte del ensayo de Sara Hooker que más energía me ha dado— es la pregunta: ¿hacia dónde debería ir el campo ahora?
La respuesta de Hooker es que estamos entrando en una era de espacios de optimización ampliados. Los informáticos estábamos acostumbrados a tener una sola gran palanca (entrenar un modelo más grande con más datos), y eso era a la vez liberador y limitante. El nuevo paisaje nos da un conjunto mucho más amplio de cosas que optimizar, y muchas están dramáticamente infraexploradas. Vamos por las que ella destaca, y luego cierro con dos aclaraciones importantes que ella misma hace al final.
1. Exploración sin gradiente: el cómputo en inferencia como palanca de primera clase
Durante los últimos 30 años, la forma de mejorar un modelo ha sido actualizar sus parámetros. Más entrenamiento, más datos, más pesos. La ruptura que está ocurriendo ahora es que una gran parte del cómputo se está gastando en tiempo de inferencia, no de entrenamiento —y, lo más importante, una buena parte es sin gradiente: el modelo en sí no cambia.
Hooker agrupa esta familia de técnicas como los nuevos espacios de optimización «compute light» y «gradient free» (su Figura 5 los desglosa explícitamente):
- Best-of-N sampling. Muestrea varias generaciones, puntúalas, devuelve la mejor.
- Búsqueda y planificación sobre generaciones. Tree search, variantes de beam search, bucles agénticos que exploran alternativas.
- Uso de herramientas. Un modelo que puede llamar a una calculadora, una base de datos, un intérprete de código u otro modelo, efectivamente toma prestada capacidad que no tiene que memorizar.
- Retrieval-augmented generation. Ya mencionado en la parte 2: vive en esta categoría.
- Enjambres agénticos. Múltiples instancias del modelo coordinándose para resolver un problema que ninguna podría sola.
- Model merging. Combinar los parámetros de varios modelos fine-tuneados sin entrenamiento adicional.
- Cómputo adaptativo. Gastar más cómputo de inferencia en los problemas difíciles y menos en los fáciles.
La estimación de Davidson et al. (2023) es el número titular: las técnicas en inferencia pueden ofrecer mejoras de 5× a 20× sobre el rendimiento base post-entrenamiento, con una huella mínima frente al coste del preentrenamiento. Es un ratio de palanca enorme, y hoy lo están capturando los equipos que han decidido invertir en esta capa en vez de esperar al siguiente escalón de tamaño de modelo.
La implicación estratégica es sutil pero importante. Las técnicas en inferencia son ingeniería, no entrenamiento. Recompensan a equipos que saben desplegar, instrumentar, evaluar e iterar rápido. El cuello de botella se desplaza de «¿tienes suficientes GPUs para entrenar?» a «¿tienes suficiente velocidad de ingeniería para componer, evaluar y desplegar?». Es genuinamente una buena noticia para las organizaciones que no se sientan encima de una línea de capex de hyperscaler —que, de nuevo, somos la mayoría.
2. El espacio maleable de los datos
El segundo nuevo espacio de optimización que destaca Hooker es lo que ella llama el espacio maleable de los datos, y puede ser el giro filosóficamente más interesante de todo el ensayo.
Durante la mayor parte de la historia de la IA, los datasets eran artefactos congelados —MNIST, ImageNet, SQuAD, C4. Elegías uno, entrenabas sobre él, reportabas números. El dataset era una foto del mundo que daba la casualidad de que podías recolectar. El supuesto fundamental del machine learning era IID —muestras extraídas independiente e idénticamente de alguna distribución fija. Aceptábamos lo que el mundo nos ofreciera.
¿Qué cambia cuando la generación de datos sintéticos se vuelve lo bastante barata como para tratar los datos en sí como algo que optimizas?
- Puedes orientar la distribución hacia lo que realmente quieres —incluidas capacidades, idiomas, casos límite, equilibrio demográfico— en lugar de aceptar lo que el corpus contenga por casualidad.
- Puedes atacar la cola larga directamente. Si tu modelo es flojo en una categoría específica, puedes generar o sintetizar ejemplos para ella en vez de cruzar los dedos para que el próximo scrape contenga más.
- Puedes reducir la brecha entre la distribución de entrenamiento y la de inferencia. Históricamente ha habido un desajuste crónico: los datos de entrenamiento los determina lo que pudiste recolectar; los inputs en inferencia, lo que los usuarios realmente hacen. Los datos sintéticos pueden cerrar esa brecha de forma deliberada.
- Puedes hacer visibles a las poblaciones invisibles. La línea de trabajo Aya (Aryabumi et al. 2024; Üstün et al. 2024; Dang et al. 2024b) trata, en buena parte, de usar datos sintéticos y traducción para dar cobertura multilingüe que la web abierta no proporciona.
Esto es una ruptura tajante con «muestras IID de la naturaleza». Ahora podemos sesgar intencionadamente la distribución hacia lo que esperamos representar, en lugar de aceptar una muestra aleatoria de lo que hay. Eso es a la vez una capacidad enorme y una responsabilidad enorme: los datos sintéticos mal hechos componen sesgo en lugar de arreglarlo.
Para los equipos de producto, la conclusión práctica es que debes tratar tus datos de entrenamiento/fine-tuning como algo que diseñas, no algo que recolectas. Si tu modelo es flojo en un slice que importa, tienes una palanca que hace cinco años no existía.
3. Diseño e interfaz
El tercer espacio de optimización que Hooker subraya es para el que la mayoría de informáticos estamos peor preparados: cómo el sistema interactúa con el mundo.
El sistema más inteligente se definirá cada vez más por construir un algoritmo que pueda interactuar con el mundo. Esto significa que, por primera vez, los investigadores que se ocupan de la inteligencia también deben obsesionarse con cómo interactúa un modelo. Lo que antes era el dominio estrecho de los diseñadores de UX, los artistas y los especialistas en interacción humano-computadora debería interesar ahora a todos los informáticos.
Esto cae con fuerza porque invierte un supuesto cultural de larga data. El progreso de la IA ha estado históricamente gateado por el algoritmo, y la interfaz se trataba como un envoltorio. Hooker está diciendo que la interfaz se está convirtiendo en parte del algoritmo —y que los sistemas más capaces serán sistemas multicomponente cuya inteligencia emerge de cómo se componen las piezas y de cómo tocan el mundo, no de que ningún modelo individual se haga más grande.
Esto encaja con la ola agéntica pero la reencuadra. Los sistemas agénticos interesantes no son «modelo más grande + herramientas». Son superficies de interacción cuidadosamente diseñadas: dónde recibe información el modelo, dónde puede actuar, qué se le muestra al humano, qué aprueba el humano, cómo fluye el feedback de vuelta. Eso es HCI, diseño de producto e ingeniería de sistemas —y es exactamente el tipo de trabajo que históricamente ha estado infravalorado en los laboratorios de IA.
Para quien esté entregando funcionalidades de IA en producto, es una buena noticia. La disciplina que ya tienes en UX, en revisión de trust-and-safety, en diseño de flujos, en arquitectura con human-in-the-loop —eso es ahora trabajo de IA de primera clase. Ya no es un envoltorio alrededor de la capacidad «de verdad».
Lo que esto no significa: la aclaración ambiental
Hooker tiene cuidado de cortar de raíz una lectura equivocada concreta del ensayo, y quiero repetirla porque es importante. La lenta muerte del escalado del cómputo de entrenamiento no significa que la huella ambiental de la IA se esté reduciendo. Al contrario:
La mayor parte de las necesidades energéticas de las cargas de IA no está en el entrenamiento, sino en el coste de poner una carga de ML en producción y servirla a miles de millones de usuarios. Aunque el tamaño de los modelos tienda a la baja, la adopción masiva de la IA implica que las necesidades energéticas totales seguirán probablemente al alza.
En otras palabras: modelos más pequeños y más eficientes se están desplegando en muchísimos más sitios, así que la huella agregada de energía y agua de la IA sigue creciendo aunque el coste de entrenamiento por modelo potencialmente se aplane. Las líneas de trabajo de Strubell et al. (2019a), Patterson et al. (2021), Luccioni et al. (2025) y Wu et al. (2022) siguen siendo load-bearing. Si acaso, el futuro pesado en inferencia que describe Hooker hace que la eficiencia en serving, la utilización de hardware y el despliegue carbon-aware sean más importantes, no menos.
He escrito antes sobre las regiones operativas soberanas factibles sobre esta misma tensión: que la historia de costes de la IA la determina cada vez más la infraestructura de serving, no el entrenamiento. El marco de Hooker lo refuerza.
¿Volveremos a escalar alguna vez?
La respuesta de Hooker aquí es mesurada y merece la cita:
Mientras sigamos atrapados con los transformers como arquitectura, no tiene sentido seguir escalando cómputo. Nuestra arquitectura actual muestra todos los signos de un meseta en los retornos por cómputo adicional. Aunque el progreso ha girado en torno a las redes neuronales profundas durante la última década, hay mucho que sugiere que el siguiente paso significativo requerirá una arquitectura completamente distinta.
La implicación es que el escalado volverá cuando llegue una nueva arquitectura que rompa la curva de retornos actual y abra otra —exactamente como hicieron los transformers en 2017. Pero escalar la arquitectura actual es, cada vez más, capex persiguiendo rendimientos decrecientes. Los laboratorios de frontera que liderarán la próxima ola no serán los que más escalaron. Serán los que apostaron por un cambio de paradigma.
Qué me llevo de toda la serie
Tres hilos sacados del ensayo de Hooker que creo que son los que más importan para cualquiera que esté entregando IA en 2026:
-
El trabajo interesante vuelve a las manos de los ingenieros. Durante una década, el progreso de la IA fue una historia sobre quién podía permitirse más cómputo. El giro hacia la técnica algorítmica, el diseño de datos, el cómputo en inferencia y la interfaz significa que la diferenciación interesante vuelve a ser una cuestión de criterio ingenieril —elección de arquitectura de retrieval, curación de datos de entrenamiento, diseño de bucles de agente, estructura del human-in-the-loop. Es territorio recuperable para equipos que no tienen un presupuesto de entrenamiento de 100 M de dólares.
-
Los supuestos dominantes de política y capex están envejeciendo rápido. Los umbrales de cómputo en la legislación, los marcos de «escalado responsable», las hojas de ruta de proveedor premisadas en «el año que viene, más grande» —todo eso son artefactos de un supuesto que es ya empíricamente débil. Cualquier plan que dependa de ellos merece una segunda mirada.
-
La próxima arquitectura es el premio. El olvido catastrófico, la ineficiencia de muestras, la incapacidad de especializar regiones del conocimiento —son los problemas duros que la arquitectura actual no puede resolver. Quien los resuelva resetea el campo. Esa es una apuesta mucho más interesante que «más parámetros».
Hooker cierra el ensayo con una cita de Turing que encaja con el momento: «Solo vemos a corta distancia, pero ahí vemos mucho que hay que hacer». La razón por la que aterriza bien es porque, durante una larga tirada, la informática sintió que no tenía mucho que hacer —tenía una sola cosa que hacer, muy cara. Por fin estamos del otro lado. La vista desde aquí es más incierta, pero el trabajo vuelve a ser más interesante.
Este es el post final de la serie. La parte 1 cubrió por qué más grande ya no siempre es mejor. La parte 2 recorrió qué impulsa realmente la tasa de retorno por unidad de cómputo.
Referencia: Sara Hooker, On the slow death of scaling, 2025.


