Retos

(1/3) La lenta muerte del escalado: por qué más grande ya no siempre es mejor

Por Marc Molas·26 de mayo de 2026·8 min de lectura

Sara Hooker —exresponsable de Cohere For AI y una de las pocas investigadoras que se juega algo en los dos terrenos, el industrial y el académico— ha publicado un ensayo titulado On the slow death of scaling. Aborda una pregunta que, durante la mayor parte de la última década, se ha tratado como si ya estuviese respondida: ¿es siempre mejor más grande?

La respuesta honesta, sostiene Hooker, es que no. Y las consecuencias de haber dado por sentado lo contrario son mayores de lo que la mayoría de equipos —y la mayoría de reguladores— han empezado a asumir. Yo leo el ensayo desde el asiento de quien construye —elijo modelos para cargas de producción, no para papers— y toca de lleno decisiones que tomo cada trimestre. Este es el primer post de una serie de tres que desgrana el ensayo y lo que significa para cualquiera que en 2026 esté desplegando o regulando IA.

La década que convirtió «escala» en sinónimo de «progreso»

La historia que cuenta Hooker arranca con un accidente. En 1945, Percy Spencer notó que una chocolatina se le derretía en el bolsillo cerca del magnetrón de un radar, y nació el microondas. En los 2000, las GPU —diseñadas para renderizar a Mario— se reutilizaron para multiplicar matrices, y nació el deep learning. El famoso paper de Google de 2012 usó 16.000 núcleos de CPU para clasificar gatos; un año después, la misma tarea se resolvía con dos núcleos de CPU y cuatro GPU.

Aquel momento desató una carrera por el cómputo y, con ella, una cultura. El viejo chiste de Ken Thompson —«cuando dudes, usa fuerza bruta»— se elevó a la categoría de bitter lesson de Rich Sutton: cuanto más cómputo le metas al problema, peor le va a la ingeniería de conocimiento humano. De 2017 a 2023, los costes de entrenamiento crecieron unos cuatro órdenes de magnitud. Entrenar GNMT costaba unos 100.000 dólares; Gemini Ultra superó los 100 millones. La «fórmula» quedó clara: escala tamaño de modelo y datos de entrenamiento, repite.

Las implicaciones de capital fueron enormes. La investigación de frontera migró de la academia a un puñado de laboratorios industriales. Hooker cita la geografía sin rodeos: la producción notable de modelos ML está hoy concentrada en EE. UU. y China hasta un grado que en 2010 habría sido impensable. La cultura de publicación abierta se ha desplomado en paralelo. Los laboratorios industriales han dejado de publicar no porque la ciencia se haya vuelto más difícil de poner por escrito, sino porque el moat se ha desplazado del algoritmo al capex.

La evidencia de que el supuesto se está rompiendo

Aquí es donde el ensayo se vuelve incómodo para cualquiera cuya hoja de ruta dependa de que el dogma del «más grande es mejor» sea cierto.

Hooker traza dos años de evolución del Open LLM Leaderboard. La tendencia no es sutil:

A Falcon 180B —en su día modelo de frontera— lo superan con holgura Llama-3 8B, Command R 35B y Gemma 2 27B.
Aya 23 8B y Aya Expanse 8B ganan a BLOOM 176B pese a tener el 4,5 % de los parámetros.
Los mejores modelos por debajo de 13B baten rutinariamente a otros mucho más grandes presentados en la misma ventana.

No son casos aislados. Son la tendencia dominante en un benchmark público durante varios años. Si «más grande» siguiera implicando «mejor» de una manera significativa y fiable, nada de esto estaría ocurriendo. Lo que estamos viendo es que la tasa de retorno por unidad de cómputo está cambiando, y el cambio lo están impulsando cosas distintas del número de parámetros: la calidad de los datos, la técnica algorítmica, las decisiones de arquitectura. Entraremos en ellas en la parte 2.

Por qué las leyes de escalado se han sobrevendido

La justificación intelectual dominante para la trayectoria «más grande es mejor» han sido las leyes de escalado —Kaplan et al. (2020), Chinchilla, Hernandez et al.—, que intentan predecir cómo decrece la pérdida a medida que crecen cómputo, datos y parámetros. Se han convertido, en palabras de Hooker, en «una expresión comodín para justificar desde inversiones masivas de capital en startups de IA hasta decisiones políticas sobre umbrales de cómputo».

Pero el ensayo cataloga, con citas, una serie de salvedades que deberían poner nervioso a cualquiera que use leyes de escalado para algo más que planificar un único entrenamiento:

Predicen sobre todo el test loss del preentrenamiento, no las capacidades downstream —y la relación entre ambas es «turbia o inconsistente». Esto es la discusión de las propiedades emergentes, que Hooker reformula con ironía: las propiedades emergentes son simplemente nuestra forma de admitir que las leyes de escalado no predijeron lo que salió.
Han sido difíciles de replicar bajo supuestos ligeramente distintos sobre la distribución de los datos (Besiroglu et al. 2024 sobre Chinchilla; Anwar et al. 2024).
Muchas «leyes de potencias» se sostienen sobre menos de 100 puntos de datos (Ruan et al. 2024). En cualquier otro campo, esto no pasaría una revisión por pares.
Algunas capacidades downstream escalan de forma errática o no siguen leyes de potencias en absoluto (Srivastava et al. 2023; Caballero et al. 2023).
Funcionan mejor cuando la arquitectura, el optimizador y la calidad de datos se mantienen constantes —justo las condiciones que tienen menos probabilidad de mantenerse en un horizonte de planificación de varios años.

La lectura honesta es que las leyes de escalado son útiles para planificar el siguiente entrenamiento dentro de un régimen conocido y poco más. Tratarlas como una predicción estructural sobre la trayectoria de la capacidad de la IA a varios años vista fue siempre forzar la máquina.

El problema regulatorio que esto crea

Aquí es donde el ensayo empieza a soportar peso para cualquiera que no esté entrenando modelos de frontera —es decir, la mayoría de nosotros. La regulación se ha construido sobre el supuesto del «más grande es mejor». El Reglamento de IA de la UE, las órdenes ejecutivas de EE. UU. y la oleada de articulado sobre umbrales de cómputo en la legislación de 2024-25 comparten todos una premisa estructural: que el cómputo de entrenamiento (FLOPs en entrenamiento, o por proxy, acceso a hardware) es el mejor indicador de capacidad y, por tanto, de riesgo.

Si Hooker tiene razón —y la evidencia empírica que presenta es difícil de despachar con un gesto—, entonces los umbrales de cómputo:

No detectan los modelos pequeños pero capaces. Un modelo de 8B que supere a otro de 180B en capacidades dañinas no activará ningún umbral basado en FLOPs.
Sobrerregulan modelos grandes pero de bajo rendimiento, creando coste de cumplimiento sobre una capacidad que no existe.
Envejecerán mal a medida que el cómputo en inferencia, los sistemas agénticos y las técnicas sin gradiente (parte 3) desplacen el lugar donde realmente se acumula la capacidad.
Concentran aún más el poder al inscribir en ley los supuestos de escala del actual oligopolio.

Las «responsible scaling policies» de Anthropic y OpenAI heredan el mismo supuesto incrustado: que el escalado va a seguir ocurriendo y que la única pregunta abierta es cómo escalar de forma responsable. El reto que plantea Hooker es más incómodo: ¿y si el escalado no es el único eje de progreso, ni siquiera el más interesante?

Qué significa esto si lo que entregas es producto, no política

Las implicaciones caen en cascada. Si eres CTO, VP de Ingeniería o fundador técnico y eliges modelos para producción, esto es lo que yo haría este trimestre:

Deja de indexar por número de parámetros. Siempre fue un proxy ruidoso y ahora es activamente engañoso. Las puntuaciones en leaderboards abiertos, las evals específicas de tu tarea y tu propio mix de tráfico en producción te dicen mucho más que cuántos miles de millones de parámetros tiene el modelo.
Por defecto, «el modelo más pequeño que supere la eval», no «el más grande que aguante el presupuesto». El coste de inferencia se acumula como el interés compuesto. La realidad de que un 8B bata a un 180B significa que normalmente te basta con bastante menos de lo que sugiere el marketing del proveedor.
Mira con desconfianza cualquier hoja de ruta de proveedor cuya propuesta de valor sea «el año que viene seremos más grandes». Algunas de las ganancias de capacidad más importantes de los últimos 24 meses —RAG, uso de herramientas, chain-of-thought, destilación— no requirieron escalado alguno.
Audita cualquier documento de planificación interna que use leyes de escalado como pronóstico. Son malos pronosticadores fuera de regímenes de entrenamiento muy concretos. Si una hoja de ruta a tres años depende de extrapolar una de ellas, eso es un riesgo, no un plan.

El supuesto del «más grande es mejor» fue útil durante una década. Se está muriendo, despacio y con elegancia. La pregunta interesante es qué viene después —y ahí es donde esto vuelve a ponerse emocionante. La creatividad de ingeniería llevaba años arrinconada por el capex. Está a punto de volver a importar.

Siguiente en esta serie: Qué impulsa realmente la tasa de retorno por unidad de cómputo —rendimientos decrecientes en parámetros, el papel de la calidad de los datos, las mejoras algorítmicas que están haciendo el trabajo de verdad y por qué la arquitectura es el techo del que nadie habla.

(1/3) La lenta muerte del escalado: por qué más grande ya no siempre es mejor

La década que convirtió «escala» en sinónimo de «progreso»

La evidencia de que el supuesto se está rompiendo

Por qué las leyes de escalado se han sobrevendido

El problema regulatorio que esto crea

Qué significa esto si lo que entregas es producto, no política

Artículos Relacionados

(2/3) Qué impulsa realmente la tasa de retorno por unidad de cómputo

Agentic-as-a-Service y el retorno del ingeniero

Coherencia no es corrección: un paper necesita tesis comprobables, no prosa impecable

¿Listo para construir tu equipo de ingeniería?