Reptes

(2/3) Què mou realment la taxa de retorn del còmput

Per Marc Molas·26 de maig del 2026·9 min de lectura

A la Part 1 vam repassar l'argument de Sara Hooker que l'era del "més gran és millor" s'està acabant. La pregunta que ve tot seguit — i a la qual Hooker dedica la major part de l'assaig — és aquesta: si el còmput ja no és la palanca dominant, què ho és?

La seva resposta: el que importa ara és la taxa de retorn per unitat de còmput, i aquesta taxa la mouen quatre coses, de les quals només una és "més paràmetres". Repassem-les en ordre, perquè totes quatre toquen decisions que jo mateix afronto com a CTO: quins models triar, com dissenyar els pipelines d'entrenament i quina infraestructura pressupostar per al 2026.

1. Paràmetres: rendiments decreixents, després rareses

El 2016 Inception tenia 23M de paràmetres. El 2025 Qwen3-235B-A22B en té 235.000 milions. Aquell salt de quatre ordres de magnitud va donar guanys reals durant un temps. Però també ha posat al descobert un fet profundament incòmode: no entenem per què necessitem la majoria d'aquests pesos.

Hooker cita tot un seguit de treballs que ho concreten:

Pots eliminar la majoria de pesos entrenats després de l'entrenament amb una pèrdua mínima de rendiment (Gale et al. 2019; Han et al. 2015; Evci et al. 2019; Hooker et al. 2020). Aquest és el resultat ben conegut de sparsity / pruning.
Però — i aquí ve l'enigma — no pots arribar al mateix rendiment si comences amb la xarxa més petita d'entrada. Els pesos extra estan fent alguna cosa durant l'entrenament que no fan a la inferència.
Denil et al. (2014) van mostrar que un petit conjunt de pesos pot predir el 95% dels pesos d'una xarxa. L'espai és enormement redundant.

L'explicació més simple és incòmoda: les xarxes profundes són aprenents increïblement ineficients de la cua llarga. Els patrons freqüents s'aprenen d'hora i amb poc cost. Els rars — justament els que fan que un model sembli "intel·ligent" en els casos límit — s'enduen una part desproporcionada del còmput i una part desproporcionada dels pesos, en bona mesura perquè entrenem minimitzant la pèrdua mitjana i exposant el model per igual a tots els exemples. El senyal dels atributs rars es dilueix en les actualitzacions per batch.

El contraargument just: l'escalat encara funciona. Tots els models de frontera de l'últim any s'han entrenat a una escala enorme, i els laboratoris que estenen els xecs més grossos saben llegir una corba de pèrdua. Concedit. Però "encara funciona" no és la mateixa afirmació que "el millor retorn per a la propera unitat de còmput" — i és a la segona que respon, de fet, el teu pressupost.

Hooker en diu "construir una escala fins a la lluna" — tècnicament s'avança, però amb una estructura de costos que no pot continuar sortint a compte. Si acceptes aquest diagnòstic, les tres palanques següents no són optimitzacions opcionals. Són la frontera de debò.

2. Qualitat de les dades: la palanca on tothom inverteix massa poc

La qualitat de les dades compensa el còmput. Hooker reuneix un gran cos d'evidència — deduplicació, pruning de dades, priorització de dades — que mostra que els corpus d'entrenament més ben curats redueixen el nombre de paràmetres necessari per assolir un determinat llistó de capacitat. Segons Marion et al. (2023), Penedo et al. (2023), Singh et al. (2024b) i altres, conjunts de dades més petits i ben curats poden igualar o superar conjunts més grans fets servir sense cap criteri. El temps d'entrenament baixa directament, i l'estalvi de còmput és estructural, no incremental.

Per què la indústria hi inverteix crònicament tan poc? Tres raons que sonaran a qualsevol que hagi portat un equip de ML:

La feina de curació encaixa malament en la planificació trimestral. "Netejar dades" és un verb que no cap en una slide de roadmap. "Entrenar un model 10× més gran" sí.
El còmput es compra; les dades curades es construeixen. Pots fer una transferència a NVIDIA i tenir GPUs el trimestre que ve. El que no pots fer és transferir diners i tenir, el trimestre que ve, un corpus net, deduplicat, equilibrat i amb les llicències clares.
Les mètriques d'èxit es poden trampejar. En un gràfic, les millores de benchmark degudes a la qualitat de les dades són idèntiques a les degudes a l'escala; així que el mèrit se l'endú qui més ha cridat a favor d'escalar, no l'equip de dades que, calladament, ha fet la deduplicació.

El canvi que descriu Hooker — de les dades com a instantània congelada (MNIST, ImageNet, SQuAD) a les dades com a objecte mal·leable i optimitzable — és un dels canvis de paradigma més importants de l'assaig. I és també on hi ha els rendiments més asimètrics per als equips que no tenen pressupost d'hyperscaler però sí expertesa de domini. Hi tornarem a la Part 3, sota l'epígraf de "l'espai de dades mal·leable".

3. Tècniques algorítmiques: l'efecte compost silenciós

La tercera palanca és la més infravalorada, sobretot perquè no arriba com un gran avenç únic, sinó com un degoteig continu de tècniques que, una per una, semblen optimitzacions menors. Hooker n'enumera una llista parcial: tot el que ha compensat el còmput brut aquests darrers anys.

Instruction fine-tuning. Ensenyar els models a seguir instruccions, per sobre del pre-entrenament.
Distil·lació a partir de mestres més grans. Un "estudiant" petit però capaç, entrenat amb dades sintètiques d'un "mestre" més gran, pot aproximar-s'hi a una fracció del cost d'inferència.
Chain-of-thought reasoning. Un patró de prompting i d'entrenament que millora el rendiment multi-pas sense tocar el còmput d'entrenament.
Més longitud de context. Canvis d'arquitectura i d'attention que permeten al mateix model condicionar-se sobre molta més informació en temps d'inferència.
Retrieval-augmented generation. Externalitzar la cua llarga de fets a una capa de retrieval. Redueix l'al·lucinació, redueix la necessitat de memoritzar, redueix la pressió sobre els paràmetres.
RLHF i entrenament de preferències. Constitutional AI, DPO, RLOO i altres variants canvien substancialment el comportament sense que calguin proporcionalment més paràmetres.

Davidson et al. (2023) estimen que les tècniques purament de còmput en temps d'inferència poden aportar millores de 5×–20× sobre el rendiment base posterior a l'entrenament. És una xifra que val la pena rumiar. Una millora de capacitat de 10× que no requereix cap re-entrenament és el tipus de cosa que trenca els roadmaps de "l'any que ve, model més gran".

Per als equips d'enginyeria, la lliçó pràctica és aquesta: la major part del teu roadmap d'IA hauria de ser algorítmica, no de capacitat. En trauràs més profit afegint una capa de retrieval ben implementada, un pas de verificació, un model distil·lat per a una tasca concreta o una estructura de prompt chain-of-thought que no pas esperant la propera fornada de models més grans.

4. Arquitectura: la que fixa el sostre

L'arquitectura és la palanca que tothom subestima perquè es mou poques vegades. Però quan es mou, invalida totes les scaling laws anteriors. Hooker és directa:

Un nou disseny d'arquitectura pot canviar fonamentalment la relació entre còmput i rendiment i fer irrellevant qualsevol scaling law existent.

I la història ho avala. Les CNN van canviar la relació per a la visió (Ciresan et al. 2011; Krizhevsky et al. 2012; Szegedy et al. 2014). Els Transformers la van canviar per al llenguatge (Vaswani et al. 2017). Cadascun va ser un canvi de paradigma que va deixar obsoletes les corbes còmput-rendiment anteriors i va obrir tota una dècada de feina derivada.

És gairebé segur que en toca un altre. L'assaig és contundent: l'arquitectura actual "mostra tots els signes d'estancament en els rendiments del còmput addicional" i "el proper pas significatiu requerirà una arquitectura completament diferent". Hi ha coses que les xarxes profundes fan especialment malament:

Aprenentatge continu — pateixen oblit catastròfic quan les dades noves interfereixen amb els comportaments antics.
Especialització del coneixement — les actualitzacions globals de gradient no esculpeixen regions de competència com ho fan els sistemes biològics.
Eficiència de mostres — necessiten moltíssims més exemples que un infant per a tasques comparables.

Una arquitectura nova que arregli ni que sigui una sola d'aquestes coses capgiraria tot el panorama. Per això, concentrar tota la inversió de capital a escalar l'arquitectura actual és, en el marc de Hooker, infrainvertir en la font més probable del proper salt.

Què canvia per als líders d'enginyeria

Posant aquestes quatre palanques una al costat de l'altra, això és el que jo m'enduria a una conversa de planificació al Q3 del 2026:

Deixa de classificar els models pel nombre de paràmetres. Classifica'ls per capacitat per token i per dòlar sobre la teva barreja real de tasques. La correlació entre el nombre de paràmetres i aquesta ràtio ja és feble.
Puja l'enginyeria de dades a l'organigrama. Si no tens una persona sènior responsable de la curació, la deduplicació, el compliment de llicències i la priorització de dades, estàs desaprofitant la palanca gratuïta més gran que tens.
Tracta les millores algorítmiques com el primer moviment per defecte. Abans d'encarregar un fine-tune o de desplegar un model més gran, esgota retrieval, estructura de prompt, passos de verificació, distil·lació, ús d'eines i chain-of-thought. La majoria d'equips abandonen aquesta capa massa aviat.
Pren-te seriosament els canvis d'arquitectura. Quan arribi la propera arquitectura post-transformer (i arribarà), els equips que hagin sobreinvertit en infraestructura pensada per a transformers — pipelines, operacions, compromisos amb proveïdors — seran els més lents a adaptar-s'hi. La diversitat arquitectònica al teu stack és una assegurança.
No confonguis "estratègia d'IA" amb "selecció de model". El model és una decisió entre moltes. Les dades, el retrieval, la verificació, el disseny human-in-the-loop — és aquí on es fa la feina que marca la diferència.

El marc de Hooker — taxa de retorn per unitat de còmput — és el que val la pena interioritzar. Desplaça la conversa de "com n'és, de gran" cap a "quanta capacitat per unitat de cost, i quines palanques la mouen". Aquesta sí que és una conversa que els equips d'enginyeria poden guanyar, i a la qual els CFO poden posar preu.

Propera entrada de la sèrie: Més enllà de l'escalat — els nous espais d'optimització per al progrés de la IA. Mètodes sense gradient, el còmput en temps d'inferència com a palanca de primer ordre, l'espai de dades mal·leable, els sistemes agèntics, i què significa (i què no) la mort de l'escalat per a l'impacte ambiental.

(2/3) Què mou realment la taxa de retorn del còmput

1. Paràmetres: rendiments decreixents, després rareses

2. Qualitat de les dades: la palanca on tothom inverteix massa poc

3. Tècniques algorítmiques: l'efecte compost silenciós

4. Arquitectura: la que fixa el sostre

Què canvia per als líders d'enginyeria

Articles Relacionats

(1/3) La mort lenta de l'escalat: per què més gran ja no vol dir sempre millor

Agentic-as-a-Service i el retorn de l'enginyer

La coherència no és correcció: per què un paper necessita tesis comprovables, no prosa impecable

Preparat per construir el teu equip d'enginyeria?