Reptes

(1/3) La mort lenta de l'escalat: per què més gran ja no vol dir sempre millor

Per Marc Molas·26 de maig del 2026·8 min de lectura

La Sara Hooker — fins fa poc al capdavant de Cohere For AI, i una de les poques investigadores que s'ha jugat la pell tant al món industrial com a l'acadèmic — ha publicat un assaig titulat On the slow death of scaling. S'hi enfronta a una pregunta que, durant bona part de l'última dècada, hem donat per resolta: més gran vol dir sempre millor?

La resposta honesta, sosté, és que no. I les conseqüències d'haver donat per fet el contrari són més grans del que la majoria d'equips — i de reguladors — han començat a pair. Jo llegeixo l'assaig des de la trinxera: trio models per a càrregues de producció, no per a papers, i el que planteja toca de ple decisions que prenc cada trimestre. Aquest és el primer post d'una sèrie de tres que desgrana l'assaig i el que implica per a qualsevol que el 2026 posi IA en producció — o l'hagi de regular.

La dècada que va convertir «escala» en sinònim de «progrés»

La història que explica Hooker comença amb un accident. El 1945, Percy Spencer es va adonar que una barreta de xocolata se li fonia a la butxaca quan era a prop d'un magnetró de radar, i en va sortir el microones. Als anys 2000, les GPU — dissenyades per renderitzar el Mario — es van reaprofitar per multiplicar matrius, i en va sortir el deep learning. L'article de Google del 2012 va fer servir 16.000 nuclis de CPU per classificar gats; un any després, la mateixa tasca es resolia amb dos nuclis de CPU i quatre GPU.

Aquell moment va desfermar una febre del còmput i, de retruc, tota una cultura. La vella broma de Ken Thompson — «when in doubt, use brute force» — va quedar consagrada com la bitter lesson de Rich Sutton: aboca més còmput al problema i l'enginyeria de coneixement humà sortirà perdent una vegada i una altra. Entre el 2017 i el 2023, els costos d'entrenament van créixer aproximadament quatre ordres de magnitud. Entrenar GNMT va costar uns 100.000 dòlars; Gemini Ultra va superar els 100 milions. La «fórmula» va quedar fixada: fes créixer la mida del model i les dades d'entrenament, i torna-hi.

Les implicacions de capital van ser enormes. La recerca de frontera va abandonar l'acadèmia i es va concentrar en un grapat de laboratoris industrials. Hooker posa la geografia sobre la taula: la producció notable de models de ML es concentra avui als EUA i a la Xina fins a un punt que el 2010 hauria estat impensable. La cultura de publicació oberta s'ha esfondrat en paral·lel. Els laboratoris industrials no han deixat de publicar perquè la ciència s'hagi tornat més difícil d'explicar, sinó perquè el moat ha passat dels algoritmes al capex.

L'evidència que el supòsit s'està trencant

Aquí és on l'assaig comença a incomodar tothom qui té un roadmap que depèn que el dogma «més gran és millor» sigui cert.

Hooker representa dos anys d'evolució de l'Open LLM Leaderboard. La tendència no és gens subtil:

Falcon 180B — que va arribar a ser frontera — queda clarament per sota de Llama-3 8B, Command R 35B i Gemma 2 27B.
Aya 23 8B i Aya Expanse 8B superen BLOOM 176B amb només un 4,5% dels paràmetres.
Els millors models de menys de 13B superen amb regularitat models molt més grans presentats en la mateixa finestra.

No són casos límit: és la tendència dominant d'un benchmark públic al llarg de diversos anys. Si «més gran» encara impliqués «millor» d'una manera significativa i fiable, res d'això no estaria passant. El que estem veient és que la taxa de retorn per unitat de còmput s'està desplaçant, i que el desplaçament el provoquen coses que no són el recompte brut de paràmetres: la qualitat de les dades, la tècnica algorítmica, les decisions d'arquitectura. Hi entrarem a la Part 2.

Per què les scaling laws s'han venut per més del que valen

La justificació intel·lectual dominant de la trajectòria «més gran és millor» han estat les scaling laws — Kaplan et al. (2020), Chinchilla, Hernandez et al. —, que intenten predir com baixa la pèrdua a mesura que creixen el còmput, les dades i els paràmetres. Van acabar sent, en paraules de Hooker, «un calaix de sastre per justificar-ho tot, des d'inversions massives de capital en startups d'IA fins a decisions regulatòries sobre llindars de còmput».

Però l'assaig documenta, amb cites, un seguit de reserves que haurien de posar nerviós qualsevol que faci servir les scaling laws per a res més que un únic entrenament planificat:

Prediuen sobretot la pèrdua de test del pre-entrenament, no les capacitats downstream — i la relació entre l'una i les altres és «tèrbola o inconsistent». És el debat de les propietats emergents, que Hooker reformula amb sorna: les propietats emergents no són res més que la nostra manera d'admetre que les scaling laws no van predir el que en va sortir.
Han estat difícils de replicar amb supòsits lleugerament diferents sobre la distribució de les dades (Besiroglu et al. 2024 sobre Chinchilla; Anwar et al. 2024).
Moltes «lleis de potència» s'aguanten sobre menys de 100 punts de dades (Ruan et al. 2024). En qualsevol altre camp, això no superaria la revisió.
Algunes capacitats downstream escalen de manera erràtica o directament no segueixen cap llei de potència (Srivastava et al. 2023; Caballero et al. 2023).
Es compleixen sobretot quan l'arquitectura, l'optimitzador i la qualitat de les dades es mantenen constants — precisament les condicions que tenen menys números de mantenir-se al llarg d'un horitzó de planificació de diversos anys.

La lectura honesta és que les scaling laws serveixen per planificar el següent entrenament dins d'un règim conegut, i poca cosa més. Tractar-les com una predicció estructural sobre la trajectòria de la capacitat de la IA a anys vista sempre havia estat agafat amb pinces.

El problema regulatori que això crea

Aquí és on l'assaig es torna rellevant de debò per a tothom qui no entrena models de frontera — que som la majoria. La regulació s'ha construït damunt del supòsit «més gran és millor». L'AI Act europea, les ordres executives dels EUA i l'onada de llindars de còmput a la legislació del 2024–25 comparteixen una mateixa premissa estructural: que el còmput d'entrenament (FLOPs en temps d'entrenament o, com a aproximació, l'accés a hardware) és el millor indicador de capacitat i, per tant, de risc.

Si Hooker té raó — i l'evidència empírica que presenta és difícil de descartar — aleshores els llindars de còmput:

Deixen escapar del tot els models petits però capaços. Un model de 8B que superi un de 180B en capacitats nocives no farà saltar cap llindar basat en FLOPs.
Sobreregulen models grans que rendeixen poc, i generen costos de compliment per una capacitat que no existeix.
Envelliran malament a mesura que el còmput en temps d'inferència, els sistemes agèntics i les tècniques sense gradient (Part 3) desplacin el lloc on s'acumula realment la capacitat.
Concentren encara més el poder, perquè fixen per llei els supòsits d'escala de l'oligopoli actual.

Les «responsible scaling policies» d'Anthropic i OpenAI arrosseguen el mateix supòsit de sèrie: que l'escalat continuarà i que l'única qüestió oberta és com escalar de manera responsable. El repte que llança Hooker és més incòmode: i si escalar no és l'únic eix de progrés — ni tan sols el més interessant?

Què implica això si fas producte, no política

Les implicacions baixen en cascada. Si ets CTO, VP d'enginyeria o fundador tècnic i tries models per a producció, això és el que jo faria aquest trimestre:

Deixa de guiar-te pel nombre de paràmetres. Sempre havia estat un indicador sorollós i ara és directament enganyós. Els leaderboards oberts, les avaluacions específiques de cada tasca i el teu propi tràfic de producció t'expliquen més coses que la B de paràmetres.
Per defecte, tria el model més petit que superi el llistó de l'avaluació, no el més gran que el pressupost permeti. El cost d'inferència s'acumula. La realitat que un 8B supera un 180B vol dir que normalment en tens prou amb molt menys del que el màrqueting dels proveïdors dona a entendre.
Mira amb recel qualsevol roadmap de proveïdor que tingui com a proposta de valor «l'any que ve serem més grans». Alguns dels avenços de capacitat més importants dels últims 24 mesos — RAG, ús d'eines, chain-of-thought, distil·lació — no van necessitar cap escalat.
Audita qualsevol document de planificació intern que faci servir scaling laws com a previsió. Fora de règims d'entrenament estrets prediuen malament. Si un roadmap a tres anys depèn d'extrapolar-ne una, allò no és un pla: és un risc.

El supòsit «més gran és millor» ha estat útil durant una dècada. Ara s'està morint, a poc a poc i amb dignitat. La pregunta interessant és què ve després — i aquí és on tot plegat torna a ser engrescador. Feia anys que el capex arraconava la creativitat de l'enginyeria. És a punt de tornar a comptar.

Següent post de la sèrie: Què mou de debò la taxa de retorn del còmput — els rendiments decreixents dels paràmetres, el paper de la qualitat de les dades, les millores algorítmiques que fan la feina de veritat, i per què l'arquitectura és qui posa el sostre encara que ningú no en parli.

(1/3) La mort lenta de l'escalat: per què més gran ja no vol dir sempre millor

La dècada que va convertir «escala» en sinònim de «progrés»

L'evidència que el supòsit s'està trencant

Per què les scaling laws s'han venut per més del que valen

El problema regulatori que això crea

Què implica això si fas producte, no política

Articles Relacionats

(2/3) Què mou realment la taxa de retorn del còmput

Agentic-as-a-Service i el retorn de l'enginyer

La coherència no és correcció: per què un paper necessita tesis comprovables, no prosa impecable

Preparat per construir el teu equip d'enginyeria?