La mort lenta de l'escalat: per què més gran ja no sempre és millor
La Sara Hooker — anteriorment cap de Cohere For AI, una de les poques investigadores amb pell als dos camps, industrial i acadèmic — ha publicat un assaig titulat On the slow death of scaling. Aborda una pregunta que, durant la major part de l'última dècada, s'ha tractat com a ja resposta: més gran és sempre millor?
La resposta honesta, defensa, és no. I les conseqüències d'haver donat per fet el contrari són més grans del que la majoria d'equips — i la majoria de reguladors — han començat a assumir. Aquest és el primer post d'una sèrie de tres parts que desgrana l'assaig i el que significa per a qualsevol que entregui o reguli IA el 2026.
La dècada que va fer de "escala" un sinònim de "progrés"
La història que explica Hooker comença amb un accident. El 1945 Percy Spencer va veure que una barra de xocolata se li fonia a la butxaca prop d'un magnetró de radar i vam tenir el microones. Als anys 2000, les GPU — dissenyades als 70 per renderitzar el Mario — es van reaprofitar per a la multiplicació matricial i vam tenir el deep learning. L'article de Google del 2012 va fer servir 16.000 nuclis de CPU per classificar gats; un any després, la mateixa tasca es resolia amb dos nuclis de CPU i quatre GPU.
Aquell moment va encendre una carrera de còmput i, amb ella, una cultura. La vella broma de Ken Thompson — "when in doubt, use brute force" — es va elevar a la bitter lesson de Rich Sutton: tira més còmput al problema, i l'enginyeria del coneixement humà segueix perdent. Del 2017 al 2023, els costos d'entrenament van créixer aproximadament quatre ordres de magnitud. GNMT va costar ~100K$ entrenar; Gemini Ultra va creuar els 100M$. La "fórmula" va quedar: escala la mida del model i les dades d'entrenament, i repeteix.
Les implicacions de capital van ser enormes. La recerca de frontera va migrar fora de l'acadèmia i cap a un grapat de laboratoris industrials. Hooker cita la geografia directament: la producció notable de models ML està ara concentrada als EUA i la Xina en un grau que hauria estat impensable el 2010. La cultura de publicació oberta s'ha esfondrat en paral·lel. Els laboratoris industrials han deixat de publicar no perquè la ciència sigui més difícil d'escriure, sinó perquè el moat s'ha mogut dels algoritmes al capex.
L'evidència que la suposició s'està trencant
Aquí és on l'assaig es posa incòmode per a tothom que té un roadmap depenent que el dogma "més gran és millor" sigui correcte.
Hooker grafica l'Open LLM Leaderboard durant dos anys. La tendència no és subtil:
- Falcon 180B — abans frontera — és superat amb facilitat per Llama-3 8B, Command R 35B i Gemma 2 27B.
- Aya 23 8B i Aya Expanse 8B baten BLOOM 176B tot i tenir el 4,5% dels paràmetres.
- Els millors models per sota de 13B baten rutinàriament models molt més grans presentats a la mateixa finestra.
Aquests no són casos extrems. Són la tendència dominant en un benchmark públic durant un període de diversos anys. Si "més gran" encara impliqués "millor" de manera significativa i fiable, res d'això estaria passant. El que estem veient és que la taxa de retorn per unitat de còmput està canviant, i el canvi el provoquen coses diferents del recompte brut de paràmetres — qualitat de dades, tècnica algorítmica, decisions arquitectòniques. Hi entrarem a la Part 2.
Per què les scaling laws s'han sobrevenut
La justificació intel·lectual dominant per a la trajectòria "més gran és millor" han estat les scaling laws — Kaplan et al. (2020), Chinchilla, Hernandez et al. — que intenten predir com decreix la pèrdua a mesura que creixen còmput, dades i paràmetres. Van esdevenir, en paraules de Hooker, "una frase calaix de sastre per justificar-ho tot, des d'inversions massives de capital en startups d'IA fins a decisions de política sobre llindars de còmput."
Però l'assaig cataloga, amb cites, una sèrie de matisos que haurien de fer nerviós a qualsevol que utilitzi les scaling laws per a qualsevol cosa més enllà d'una única corrida d'entrenament planejada:
- Prediuen sobretot la pèrdua de test del pre-entrenament, no capacitats downstream — i la relació entre les dues és "tèrbola o inconsistent." Aquesta és la discussió de les propietats emergents, que Hooker reformula amb ironia: les propietats emergents són just la nostra admissió que les scaling laws no van predir el que en va sortir.
- Han estat difícils de replicar sota suposicions lleugerament diferents sobre la distribució de dades (Besiroglu et al. 2024 sobre Chinchilla; Anwar et al. 2024).
- Moltes "lleis de potència" se sustenten en menys de 100 punts de dades (Ruan et al. 2024). En qualsevol altre camp això no passaria la revisió.
- Algunes capacitats downstream escalen de manera erràtica o no segueixen lleis de potència en absolut (Srivastava et al. 2023; Caballero et al. 2023).
- Aguanten millor quan arquitectura, optimitzador i qualitat de dades es mantenen constants — exactament les condicions que menys probablement es mantindran en un horitzó de planificació de diversos anys.
La lectura honesta és que les scaling laws són útils per a planificar la propera corrida d'entrenament dins d'un règim conegut i poca cosa més. Tractar-les com una predicció càrrega-portant sobre la trajectòria de la capacitat d'IA al llarg dels anys sempre va ser una estirada.
El problema de política que això crea
Aquí és on l'assaig esdevé càrrega-portant per a tothom que no estigui entrenant models de frontera — que som la majoria. La regulació s'ha construït sobre la suposició "més gran és millor." La EU AI Act, els executive orders dels EUA i l'onada de llenguatge de llindars de còmput a la legislació del 2024–25 comparteixen una premissa estructural: que el còmput d'entrenament (FLOPs en temps d'entrenament, o per proxy, accés a hardware) és el millor indicador de capacitat i, per tant, de risc.
Si Hooker té raó — i l'evidència empírica que presenta és difícil d'esquivar — aleshores els llindars de còmput:
- No detecten els models petits-però-capaços. Un model de 8B que supera un de 180B en capacitats nocives no activarà cap llindar basat en FLOPs.
- Sobreregulen models grans però infrarendidors, creant cost de compliment per a una capacitat que no existeix.
- Envelliran malament a mesura que el còmput en temps d'inferència, els sistemes agèntics i les tècniques sense gradient (Part 3) desplacin on s'acumula realment la capacitat.
- Concentren encara més el poder escrivint a la llei les suposicions d'escala de l'oligopoli actual.
Les "responsible scaling policies" d'Anthropic i OpenAI hereten la mateixa suposició encastada: que l'escalat seguirà passant i l'única qüestió oberta és com escalar de manera responsable. El repte de Hooker és més incòmode: i si l'escala no és l'únic — ni tan sols el més interessant — eix de progrés?
Què significa això si estàs entregant producte, no política
Les implicacions cascadegen avall. Si ets CTO, VP d'Eng o fundador tècnic prenent decisions de model per producció:
- Deixa d'indexar pel recompte de paràmetres. Sempre va ser un proxy sorollós i ara és activament enganyós. Les puntuacions dels leaderboards oberts, els evals específics de tasca i la teva pròpia barreja de tràfic de producció et diuen més que B-de-paràmetres.
- Per defecte, "el model més petit que passa el llindar d'eval", no "el model més gran que el pressupost permet." El cost d'inferència es compon. La realitat 8B-bat-180B vol dir que normalment te'n pots sortir amb molt menys del que el màrqueting dels venedors implica.
- Tracta amb sospita qualsevol roadmap de venedor la proposta de valor del qual sigui "l'any que ve serem més grans". Algunes de les guanys de capacitat més importants dels últims 24 mesos — RAG, ús d'eines, chain-of-thought, distil·lació — no van requerir cap escalat.
- Audita qualsevol document de planificació intern que utilitzi scaling laws com a previsió. Són mals predictores fora de règims d'entrenament estrets. Si un roadmap a 3 anys depèn d'extrapolar-ne una, això és un risc, no un pla.
La suposició "més gran és millor" va ser útil durant una dècada. Està morint, amb gràcia i lentament. La pregunta interessant és què ve a continuació — i és aquí on això torna a ser emocionant. La creativitat enginyeril ha estat desplaçada pel capex durant anys. Està a punt de tornar a importar.
Següent a la sèrie: Què mou realment la taxa de retorn del còmput — rendiments decreixents en paràmetres, el paper de la qualitat de dades, les millores algorítmiques que fan la feina de debò, i per què l'arquitectura és el sostre del qual ningú no parla.


