Retos

(3/3) Más allá del escalado: los nuevos espacios de optimización para el progreso de la IA

Por Marc Molas·26 de mayo de 2026·9 min de lectura

En la parte 1 cubrimos por qué el escalado ha dejado de ser un eje fiable de progreso. En la parte 2 recorrimos las cuatro palancas que mueven la tasa de retorno real por unidad de cómputo. El cierre natural de la serie —y la parte del ensayo de Sara Hooker que más energía me ha dado— es la pregunta: ¿hacia dónde debería ir el campo ahora?

La respuesta de Hooker es que estamos entrando en una era de espacios de optimización ampliados. Los informáticos estábamos acostumbrados a tener una sola gran palanca (entrenar un modelo más grande con más datos), y eso era a la vez liberador y limitante. El nuevo paisaje nos da un conjunto mucho más amplio de cosas que optimizar, y muchas están enormemente infraexploradas. Repasemos las que ella destaca, y luego cierro con dos aclaraciones importantes que ella misma hace al final.

1. Exploración sin gradiente: el cómputo en inferencia como palanca de primera clase

Durante los últimos 30 años, la forma de mejorar un modelo ha sido actualizar sus parámetros. Más entrenamiento, más datos, más pesos. La ruptura que está ocurriendo ahora es que una gran parte del cómputo se está gastando en tiempo de inferencia, no de entrenamiento —y, lo más importante, una buena parte es sin gradiente: el modelo en sí no cambia.

Hooker agrupa esta familia de técnicas como los nuevos espacios de optimización «compute light» y «gradient free» (su Figura 5 los desglosa explícitamente):

Best-of-N sampling. Muestrea varias generaciones, puntúalas, devuelve la mejor.
Búsqueda y planificación sobre generaciones. Tree search, variantes de beam search, bucles agénticos que exploran alternativas.
Uso de herramientas. Un modelo que puede llamar a una calculadora, una base de datos, un intérprete de código u otro modelo, en la práctica toma prestada una capacidad que no necesita memorizar.
Retrieval-augmented generation. Ya mencionado en la parte 2: vive en esta categoría.
Enjambres agénticos. Múltiples instancias del modelo coordinándose para resolver un problema que ninguna podría sola.
Model merging. Combinar los parámetros de varios modelos fine-tuneados sin entrenamiento adicional.
Cómputo adaptativo. Gastar más cómputo de inferencia en los problemas difíciles y menos en los fáciles.

La estimación de Davidson et al. (2023) es la cifra que abre titulares: las técnicas en inferencia pueden ofrecer mejoras de 5× a 20× sobre el rendimiento base post-entrenamiento, con una huella mínima frente al coste del preentrenamiento. Es un apalancamiento enorme, y hoy lo están capturando los equipos que han decidido invertir en esta capa en vez de esperar al siguiente escalón de tamaño de modelo.

La implicación estratégica es sutil pero importante. Las técnicas en inferencia son ingeniería, no entrenamiento. Recompensan a equipos que saben desplegar, instrumentar, evaluar e iterar rápido. El cuello de botella se desplaza de «¿tienes suficientes GPUs para entrenar?» a «¿tienes suficiente velocidad de ingeniería para componer, evaluar y desplegar?». Es una noticia genuinamente buena para las organizaciones que no disponen de un capex de hyperscaler —que, de nuevo, somos la mayoría.

2. El espacio maleable de los datos: datos que diseñas, no datos que recolectas

El segundo nuevo espacio de optimización que destaca Hooker es lo que ella llama el espacio maleable de los datos, y puede ser el giro filosóficamente más interesante de todo el ensayo.

Durante la mayor parte de la historia de la IA, los datasets eran artefactos congelados —MNIST, ImageNet, SQuAD, C4. Elegías uno, entrenabas sobre él, reportabas números. El dataset era una foto del mundo que daba la casualidad de que podías recolectar. El supuesto fundamental del machine learning era IID —muestras extraídas independiente e idénticamente de alguna distribución fija. Aceptábamos lo que el mundo nos ofreciera.

¿Qué cambia cuando la generación de datos sintéticos se vuelve lo bastante barata como para tratar los datos en sí como algo que optimizas?

Puedes orientar la distribución hacia lo que realmente quieres —incluidas capacidades, idiomas, casos límite, equilibrio demográfico— en lugar de aceptar lo que el corpus contenga por casualidad.
Puedes atacar la cola larga directamente. Si tu modelo es flojo en una categoría específica, puedes generar o sintetizar ejemplos para ella en vez de cruzar los dedos para que el próximo scrape contenga más.
Puedes reducir la brecha entre la distribución de entrenamiento y la de inferencia. Históricamente ha habido un desajuste crónico: los datos de entrenamiento los determina lo que pudiste recolectar; los inputs en inferencia, lo que los usuarios realmente hacen. Los datos sintéticos pueden cerrar esa brecha de forma deliberada.
Puedes hacer visibles a las poblaciones invisibles. La línea de trabajo Aya (Aryabumi et al. 2024; Üstün et al. 2024; Dang et al. 2024b) trata, en buena parte, de usar datos sintéticos y traducción para dar cobertura multilingüe que la web abierta no proporciona.

Esto es una ruptura tajante con «muestras IID de la naturaleza». Ahora podemos sesgar intencionadamente la distribución hacia lo que esperamos representar, en lugar de aceptar una muestra aleatoria de lo que hay. Eso es a la vez una capacidad enorme y una responsabilidad enorme: los datos sintéticos mal hechos amplifican el sesgo en lugar de corregirlo.

Para los equipos de producto, la conclusión práctica es que debes tratar tus datos de entrenamiento/fine-tuning como algo que diseñas, no algo que recolectas. Si tu modelo es flojo en un segmento que importa, tienes una palanca que hace cinco años no existía.

3. Diseño e interfaz: la interfaz se está convirtiendo en parte del algoritmo

El tercer espacio de optimización que Hooker subraya es para el que la mayoría de informáticos estamos peor preparados: cómo el sistema interactúa con el mundo.

El sistema más inteligente se definirá cada vez más por construir un algoritmo que pueda interactuar con el mundo. Esto significa que, por primera vez, los investigadores que se ocupan de la inteligencia también deben obsesionarse con cómo interactúa un modelo. Lo que antes era el dominio estrecho de los diseñadores de UX, los artistas y los especialistas en interacción persona-ordenador debería interesar ahora a todos los informáticos.

Esto golpea fuerte porque invierte un supuesto cultural muy asentado. Históricamente, el cuello de botella del progreso de la IA era el algoritmo, y la interfaz se trataba como un envoltorio. Hooker está diciendo que la interfaz se está convirtiendo en parte del algoritmo —y que los sistemas más capaces serán sistemas multicomponente cuya inteligencia emerge de cómo se componen las piezas y de cómo tocan el mundo, no de que ningún modelo individual se haga más grande.

Esto encaja con la ola agéntica pero la reencuadra. Los sistemas agénticos interesantes no son «modelo más grande + herramientas». Son superficies de interacción cuidadosamente diseñadas: dónde recibe información el modelo, dónde puede actuar, qué se le muestra al humano, qué aprueba el humano, cómo fluye el feedback de vuelta. Eso es HCI, diseño de producto e ingeniería de sistemas —y es exactamente el tipo de trabajo que históricamente ha estado infravalorado en los laboratorios de IA.

Para quien esté llevando funcionalidades de IA a producto, es una buena noticia. La disciplina que ya tienes en UX, en revisión de trust-and-safety, en diseño de flujos, en arquitectura con human-in-the-loop —eso es ahora trabajo de IA de primera clase. Ya no es un envoltorio alrededor de la capacidad «de verdad».

Lo que esto no significa: la aclaración ambiental

Hooker tiene cuidado de cortar de raíz una lectura equivocada concreta del ensayo, y quiero repetirla porque es importante. La lenta muerte del escalado del cómputo de entrenamiento no significa que la huella ambiental de la IA se esté reduciendo. Al contrario:

La mayor parte de las necesidades energéticas de las cargas de IA no está en el entrenamiento, sino en el coste de poner una carga de ML en producción y servirla a miles de millones de usuarios. Aunque el tamaño de los modelos tienda a la baja, la adopción masiva de la IA implica que las necesidades energéticas totales seguirán probablemente al alza.

En otras palabras: modelos más pequeños y más eficientes se están desplegando en muchísimos más sitios, así que la huella agregada de energía y agua de la IA sigue creciendo aunque el coste de entrenamiento por modelo potencialmente se aplane. Las líneas de trabajo de Strubell et al. (2019a), Patterson et al. (2021), Luccioni et al. (2025) y Wu et al. (2022) siguen sosteniendo el argumento. Si acaso, el futuro pesado en inferencia que describe Hooker hace que la eficiencia en serving, la utilización de hardware y el despliegue carbon-aware sean más importantes, no menos.

Ya he escrito sobre las regiones operativas soberanas factibles a propósito de esta misma tensión: la historia de costes de la IA la determina cada vez más la infraestructura de serving, no el entrenamiento. El marco de Hooker lo refuerza.

¿Volveremos a escalar alguna vez?

La respuesta de Hooker aquí es mesurada y merece citarse:

Mientras sigamos atrapados con los transformers como arquitectura, no tiene sentido seguir escalando cómputo. Nuestra arquitectura actual muestra todos los signos de haber tocado techo en los retornos por cómputo adicional. Aunque el progreso ha girado en torno a las redes neuronales profundas durante la última década, hay mucho que sugiere que el siguiente paso significativo requerirá una arquitectura completamente distinta.

La implicación es que el escalado volverá cuando llegue una nueva arquitectura que rompa la curva de retornos actual y abra otra —exactamente como hicieron los transformers en 2017. Pero escalar la arquitectura actual es, cada vez más, capex persiguiendo rendimientos decrecientes. Los laboratorios de frontera que liderarán la próxima ola no serán los que más escalaron. Serán los que apostaron por un cambio de paradigma.

Qué me llevo de toda la serie

Tres hilos sacados del ensayo de Hooker que creo que son los que más importan para cualquiera que esté poniendo IA en producción en 2026:

El trabajo interesante vuelve a las manos de los ingenieros. Durante una década, el progreso de la IA fue una historia sobre quién podía permitirse más cómputo. El giro hacia la técnica algorítmica, el diseño de datos, el cómputo en inferencia y la interfaz significa que la diferenciación interesante vuelve a ser una cuestión de criterio ingenieril —elección de arquitectura de retrieval, curación de datos de entrenamiento, diseño de bucles de agente, estructura del human-in-the-loop. Es territorio recuperable para equipos que no tienen un presupuesto de entrenamiento de 100 M de dólares.
Los supuestos dominantes de política y capex están envejeciendo rápido. Los umbrales de cómputo en la legislación, los marcos de «escalado responsable», las hojas de ruta de proveedor construidas sobre la premisa de «el año que viene, más grande» —todo eso son artefactos de un supuesto que hoy es empíricamente débil. Cualquier plan que dependa de ellos merece revisarse.
La próxima arquitectura es el premio. El olvido catastrófico, la ineficiencia de muestras, la incapacidad de especializar regiones del conocimiento —son los problemas duros que la arquitectura actual no puede resolver. Quien los resuelva reinicia el campo de juego. Esa es una apuesta mucho más interesante que «más parámetros».

Hooker cierra el ensayo con una cita de Turing que encaja con el momento: «Solo alcanzamos a ver una corta distancia por delante, pero ahí vemos mucho por hacer». Si esa frase cala es porque, durante una larga temporada, la informática pareció no tener mucho que hacer: tenía una sola cosa que hacer, y muy cara. Por fin estamos al otro lado. La vista desde aquí es más incierta, pero el trabajo vuelve a ser interesante.

Este es el post final de la serie. La parte 1 cubrió por qué más grande ya no siempre es mejor. La parte 2 recorrió qué impulsa realmente la tasa de retorno por unidad de cómputo.

Referencia: Sara Hooker, On the slow death of scaling, 2025.

(3/3) Más allá del escalado: los nuevos espacios de optimización para el progreso de la IA

1. Exploración sin gradiente: el cómputo en inferencia como palanca de primera clase

2. El espacio maleable de los datos: datos que diseñas, no datos que recolectas

3. Diseño e interfaz: la interfaz se está convirtiendo en parte del algoritmo

Lo que esto no significa: la aclaración ambiental

¿Volveremos a escalar alguna vez?

Qué me llevo de toda la serie

Artículos Relacionados

Agentic-as-a-Service y el retorno del ingeniero

Coherencia no es corrección: un paper necesita tesis comprobables, no prosa impecable

(1/3) La lenta muerte del escalado: por qué más grande ya no siempre es mejor

¿Listo para construir tu equipo de ingeniería?