← Tornar a tots els articles
Reptes

Què mou realment la taxa de retorn del còmput

Per Marc Molas·26 de maig del 2026·9 min de lectura

A la Part 1 vam repassar l'argument de Sara Hooker que l'era del "més gran és millor" s'està acabant. La pregunta natural de seguiment — i la que ocupa la major part de l'assaig — és si el còmput ja no és la palanca dominant, què ho és?

La seva resposta: el que importa ara és la taxa de retorn per unitat de còmput, i aquesta taxa la mouen quatre coses, de les quals només una és "més paràmetres." Anem-les a repassar en ordre, perquè cadascuna té implicacions sobre com un equip d'enginyeria hauria d'escollir models, dissenyar pipelines d'entrenament i pressupostar infraestructura el 2026.

1. Paràmetres: rendiments decreixents, després rareses

El 2016 Inception tenia 23M de paràmetres. El 2025 Qwen3-235B-A22B en té 235.000 milions. Aquell salt de quatre ordres de magnitud va comprar guanys reals durant un temps. També ha exposat un fet profundament incòmode: no entenem per què necessitem la majoria d'aquells pesos.

Hooker cita un conjunt de feina que ho fa concret:

  • Pots eliminar la majoria de pesos entrenats després de l'entrenament amb una pèrdua mínima de rendiment (Gale et al. 2019; Han et al. 2015; Evci et al. 2019; Hooker et al. 2020). Aquest és el resultat ben conegut de sparsity / pruning.
  • Però — i aquí ve l'enigma — no pots arribar al mateix rendiment si comences amb la xarxa més petita d'entrada. Els pesos extra estan fent alguna cosa durant l'entrenament que no fan a la inferència.
  • Denil et al. (2014) van mostrar que un petit conjunt de pesos pot predir el 95% dels pesos d'una xarxa. L'espai és enormement redundant.

L'explicació més simple és incòmoda: les xarxes profundes són aprenents increïblement ineficients de la cua llarga. Els patrons freqüents s'aprenen aviat i barats. Els rars — exactament els que fan que un model sembli "intel·ligent" en casos extrems — requereixen una part desproporcionada del còmput i una part desproporcionada dels pesos, en gran mesura perquè entrenem amb minimització de pèrdua mitjana i exposició igualada entre exemples. El senyal dels atributs rars es dilueix en les actualitzacions per batch.

Hooker en diu "construir una escala fins a la lluna" — tècnicament progressant, però amb una estructura de cost que no es pot sostenir. Si acceptes aquest diagnòstic, les tres palanques següents no són optimitzacions opcionals. Són la frontera real.

2. Qualitat de dades: la palanca en què tothom invest massa poc

La qualitat de dades compensa el còmput. Hooker reuneix un gran cos d'evidència — deduplicació, pruning de dades, priorització de dades — que mostra que corpus d'entrenament millor curats redueixen el recompte de paràmetres necessari per assolir una determinada barra de capacitat. Segons Marion et al. (2023), Penedo et al. (2023), Singh et al. (2024b) i altres, datasets més petits ben curats poden igualar o batre els més grans utilitzats ingènuament. El temps d'entrenament cau directament, i l'estalvi de còmput és estructural, no incremental.

Per què la indústria infrainverteix crònicament aquí? Tres raons familiars a qualsevol que hagi gestionat un equip ML:

  1. La feina de curació no encaixa bé en planificació trimestral. "Netejar dades" és un verb que no cap en una slide de roadmap. "Entrenar un model 10× més gran" sí.
  2. El còmput és comprable; les dades curades es construeixen. Pots transferir diners a NVIDIA i tenir GPUs el trimestre que ve. No pots transferir diners i tenir un corpus net, deduplicat, balancejat i amb llicències clares el trimestre que ve.
  3. Les mètriques d'èxit es gamejen. Les millores de benchmark per qualitat de dades es veuen idèntiques a les millores de benchmark per escala en un gràfic, així que el crèdit va a qui més va cridar sobre escalar, no a l'equip de dades que silenciosament va fer la deduplicació.

El canvi que descriu Hooker — de dades com a captura congelada (MNIST, ImageNet, SQuAD) a dades com a objecte mal·leable i optimitzat — és un dels canvis de paradigma més importants de l'assaig. També és on existeixen els rendiments més asimètrics per a equips que no tenen pressupostos d'hyperscaler però sí expertesa de domini. Hi tornarem a la Part 3 sota "l'espai de dades mal·leable."

3. Tècniques algorítmiques: la composició silenciosa

La tercera palanca és la més infravalorada, sobretot perquè no arriba en una sola gran ruptura sinó com un degoteig continu de tècniques que individualment semblen optimitzacions menors. Hooker enumera una llista parcial del que ha compensat còmput brut els darrers anys:

  • Instruction fine-tuning. Ensenyar models a seguir instruccions sobre el pre-entrenament.
  • Distil·lació de mestres més grans. Un "estudiant" petit capaç entrenat amb dades sintètiques d'un "mestre" més gran pot aproximar-lo a una fracció del cost d'inferència.
  • Chain-of-thought reasoning. Un patró de prompting i entrenament que millora el rendiment multi-pas sense canvi de còmput d'entrenament.
  • Longitud de context augmentada. Canvis arquitectònics i d'attention que permeten al mateix model condicionar-se sobre molta més informació en temps d'inferència.
  • Retrieval-augmented generation. Externalitza la cua llarga de fets a una capa de retrieval. Redueix l'al·lucinació, redueix la necessitat de memoritzar, redueix la pressió sobre els paràmetres.
  • RLHF i entrenament de preferència. Constitutional AI, DPO, RLOO i altres variants canvien substancialment el comportament sense més paràmetres proporcionalment.

Davidson et al. (2023) estimen que les tècniques purament de còmput en temps d'inferència poden entregar millores de 5×–20× sobre el rendiment base post-entrenament. Aquest número val la pena rumiar-lo. Una millora de capacitat de 10× que requereix zero re-entrenament és el tipus de cosa que trenca els roadmaps de "model més gran l'any que ve."

Per als equips d'enginyeria la lliçó pràctica és: la major part del teu roadmap d'IA hauria de ser algorítmic, no de capacitat. Trauràs més palanca afegint una capa de retrieval ben implementada, un pas de verificació, un model distil·lat específic de tasca o una estructura de prompt chain-of-thought que no pas esperant la propera classe de mida de model.

4. Arquitectura: el sostre

L'arquitectura és la palanca que tothom subestima perquè es mou poc sovint. Però quan es mou, reseta totes les scaling laws que la precedien. Hooker és directa:

Un nou disseny d'arquitectura pot canviar fonamentalment la relació entre còmput i rendiment i fer irrellevant qualsevol scaling law existent.

Tenim els rebuts històrics. Les CNN van canviar la relació per a la visió (Ciresan et al. 2011; Krizhevsky et al. 2012; Szegedy et al. 2014). Els Transformers van canviar la relació per al llenguatge (Vaswani et al. 2017). Cadascun d'aquests va ser un canvi de paradigma que va deixar obsoletes les corbes còmput-rendiment anteriors i va desbloquejar tota una dècada de feina derivada.

Gairebé segur que en toca un altre. L'assaig és contundent: l'arquitectura actual "mostra tots els signes d'estancar-se en rendiments de còmput addicional" i "el proper pas significatiu endavant requerirà una arquitectura completament diferent." Les xarxes profundes són particularment dolentes a:

  • Aprenentatge continu — pateixen oblit catastròfic quan dades noves interfereixen amb comportaments antics.
  • Especialització de coneixement — les actualitzacions globals de gradient no esculpeixen regions de competència com fan els sistemes biològics.
  • Eficiència de mostres — necessiten molts més exemples que un nen humà per a tasques comparables.

Una nova arquitectura que arregli ni que sigui una sola d'aquestes coses re-barrejaria tot el paisatge. Per això concentrar tot el capex en escalar l'arquitectura actual és, en el marc de Hooker, infrainvertir en la font més probable del proper salt.

Què canvia per als líders d'enginyeria

Tirant juntes aquestes quatre palanques, això és el que m'enduria a una conversa de planificació al Q3 del 2026:

  • Deixa de classificar els models per recompte de paràmetres. Classifica'ls per capacitat-per-token-per-dòlar a la teva barreja real de tasques. La correlació entre el recompte de paràmetres i aquest ràtio és ara feble.
  • Puja l'enginyeria de dades a l'organigrama. Si no tens una persona sènior responsable de curació, deduplicació, compliment de llicències i priorització de dades, estàs deixant la palanca gratuïta més gran a terra.
  • Tracta les millores algorítmiques com a primer moviment per defecte. Abans d'encarregar un fine-tune o un desplegament de model més gran, esgota: retrieval, estructura de prompt, passos de verificació, distil·lació, ús d'eines, chain-of-thought. La majoria d'equips abandonen aquesta capa massa aviat.
  • Segueix els canvis d'arquitectura seriosament. Quan arribi la propera arquitectura post-transformer (i arribarà), els equips que s'han sobreinvertit en infraestructura amb forma de transformer — pipelines, ops, compromisos amb venedors — seran els més lents a adaptar-se. La diversitat arquitectònica al teu stack és una cobertura.
  • No confonguis "estratègia d'IA" amb "selecció de model." El model és una decisió entre moltes. Les dades, el retrieval, la verificació, el disseny human-in-the-loop — aquí és on passa la feina diferencial.

El marc de Hooker — taxa de retorn per unitat de còmput — és el correcte per internalitzar. Treu la conversa de "com de gran" i la porta cap a "quanta capacitat per unitat de cost, i quines són les palanques que la mouen." Aquesta és una conversa que els equips d'enginyeria poden guanyar realment, i que els CFO poden posar preu.


Següent a la sèrie: Més enllà de l'escalat — els nous espais d'optimització per al progrés de la IA. Mètodes sense gradient, còmput en temps d'inferència com a palanca de primera classe, l'espai de dades mal·leable, sistemes agèntics, i què significa (i què no) la mort de l'escalat per a l'impacte ambiental.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.