Reptes

(3/3) Més enllà de l'escalat: els nous espais d'optimització de la IA

Per Marc Molas·26 de maig del 2026·9 min de lectura

A la Part 1 vam veure per què l'escalat ja no és un eix fiable de progrés. A la Part 2 vam desgranar les quatre palanques que determinen el retorn real de cada unitat de còmput. El tancament natural de la sèrie — i la part de l'assaig de Sara Hooker que m'ha semblat més estimulant — és la pregunta: cap a on hauria d'anar ara el camp?

La resposta de Hooker és que entrem en una era d'espais d'optimització expandits. Els informàtics teníem una sola gran palanca (entrenar un model més gran amb més dades), i això era alliberador i alhora una gàbia. El nou paisatge ens dona un ventall molt més ampli de coses a optimitzar, i moltes estan clarament infraexplorades. Repassem les que ella destaca i, després, aturem-nos en dos aclariments importants que fa al final.

1. Exploració sense gradient: el còmput en temps d'inferència com a palanca de ple dret

Durant els últims trenta anys, millorar un model ha volgut dir actualitzar-ne els paràmetres. Més entrenament, més dades, més pesos. La ruptura que vivim ara mateix és que una bona part del còmput es gasta en temps d'inferència, no d'entrenament — i, sobretot, que molt d'aquest còmput és sense gradient: el model en si no canvia.

Hooker agrupa aquesta família de tècniques sota els nous espais d'optimització «lleugers de còmput» i «sense gradient» (la seva Figura 5 els separa explícitament):

Best-of-N sampling. Mostreja diverses respostes, puntua-les i retorna la millor.
Cerca i planificació sobre generacions. Tree search, variants de beam search, bucles agèntics que exploren alternatives.
Ús d'eines. Un model que pot cridar una calculadora, una base de dades, un intèrpret de codi o un altre model manlleva, de fet, una capacitat que no ha de memoritzar.
Retrieval-augmented generation. Ja en vam parlar a la Part 2 — pertany a aquesta categoria.
Eixams agèntics. Diverses instàncies d'un model coordinant-se per resoldre un problema que una de sola no podria.
Model merging. Combinar els paràmetres de diversos models afinats sense més entrenament.
Còmput adaptatiu. Gastar més còmput d'inferència en els problemes difícils i menys en els fàcils.

L'estimació de Davidson et al. (2023) és el titular: les tècniques de temps d'inferència poden aportar millores de 5×–20× sobre el rendiment base posterior a l'entrenament, amb una petjada mínima en comparació del cost del pre-entrenament. És un palanquejament enorme, i avui l'estan capturant els equips que van decidir invertir en aquesta capa en lloc d'esperar la propera generació de models més grans.

La implicació estratègica és subtil però important. Les tècniques de temps d'inferència són enginyeria, no entrenament. Premien els equips capaços de desplegar, instrumentar, avaluar i iterar de pressa. El coll d'ampolla es desplaça de «tens prou GPU per entrenar» a «tens prou velocitat d'enginyeria per compondre, avaluar i posar en producció». I això és una bona notícia, de debò, per a les organitzacions que no tenen una línia de capex de hiperescalador — que, un cop més, som la majoria.

2. L'espai de dades mal·leable: dades que dissenyes, no dades que reculls

El segon espai d'optimització nou és el que Hooker anomena l'espai de dades mal·leable, i potser és el gir filosòficament més interessant de tot l'assaig.

Durant gairebé tota la història de la IA, els datasets eren artefactes congelats — MNIST, ImageNet, SQuAD, C4. En triaves un, hi entrenaves, en publicaves els números. El dataset era una instantània del món: la que havies pogut reunir, ni més ni menys. La suposició fonamental del machine learning era la IID — mostres extretes de manera independent i idèntica d'una distribució fixa. Acceptàvem el que el món ens donava.

Què canvia quan generar dades sintètiques es torna prou barat per tractar les dades mateixes com una cosa que s'optimitza?

Pots orientar la distribució cap al que realment vols — capacitats, llengües, casos límit, equilibri demogràfic — en lloc de conformar-te amb el que el corpus porti de sèrie.
Pots atacar directament la cua llarga. Si el model fluixeja en una categoria concreta, en pots generar o sintetitzar exemples en lloc de confiar que el proper scrape en porti més.
Pots escurçar la distància entre la distribució d'entrenament i la d'inferència. Històricament hi ha hagut un desajust crònic: les dades d'entrenament les determina el que vas poder recollir; les entrades d'inferència, el que els usuaris fan de veritat. Les dades sintètiques permeten tancar aquesta escletxa de manera deliberada.
Pots fer visibles poblacions invisibles. La línia de treball d'Aya (Aryabumi et al. 2024; Üstün et al. 2024; Dang et al. 2024b) consisteix en bona part a fer servir dades sintètiques i traducció per donar una cobertura multilingüe que la web oberta no ofereix.

És una ruptura clara amb les «mostres IID de la natura». Ara podem esbiaixar intencionadament la distribució cap al que aspirem a representar, en lloc d'acceptar una mostra aleatòria del que hi ha. I això és alhora una capacitat enorme i una responsabilitat enorme — les dades sintètiques mal fetes amplifiquen el biaix en lloc de corregir-lo.

Per als equips de producte, la lliçó pràctica és aquesta: tracta les dades d'entrenament i de fine-tuning com una cosa que dissenyes, no que reculls. Si el model fluixeja en un segment que t'importa, tens una palanca que fa cinc anys no existia.

3. Disseny i interfície: la interfície comença a formar part de l'algoritme

El tercer espai d'optimització que Hooker destaca és aquell per al qual la majoria d'informàtics estem menys preparats: com interactua el sistema amb el món.

Cada vegada més, el sistema més intel·ligent es definirà per la capacitat de construir un algoritme que pugui interactuar amb el món. Això vol dir que, per primera vegada, els investigadors que es preocupen per la intel·ligència també s'han d'obsessionar amb la manera com un model interactua. El que abans era terreny exclusiu de dissenyadors d'UX, artistes i especialistes en interacció persona-ordinador hauria d'interessar ara, i molt, tots els informàtics.

Aquesta idea pesa perquè capgira una assumpció cultural de fa dècades. El progrés de la IA ha dependut històricament de l'algoritme, i la interfície era un simple embolcall. El que diu Hooker és que la interfície comença a formar part de l'algoritme — i que els sistemes més capaços seran sistemes de múltiples components, la intel·ligència dels quals emergirà de com es componen i de com toquen el món, no del fet que cap model individual es faci més gros.

Això connecta amb l'onada de sistemes agèntics, però la reformula. Els sistemes agèntics interessants no són «un model més gran amb eines». Són superfícies d'interacció dissenyades amb cura: d'on treu informació el model, on pot actuar, què veu la persona, què aprova, com retorna el feedback. Això és HCI, disseny de producte i enginyeria de sistemes — exactament la mena de feina que els laboratoris d'IA han infravalorat tota la vida.

Per a qualsevol que posi funcionalitats d'IA en producció, és una bona notícia. La disciplina que ja tens en UX, en revisió de trust-and-safety, en disseny de fluxos de treball, en arquitectura human-in-the-loop — tot això ara és feina d'IA de ple dret. Ja no és un embolcall al voltant de la capacitat «de debò».

El que això no vol dir: l'aclariment ambiental

Hooker s'avança a una lectura errònia molt concreta de l'assaig, i la vull repetir perquè és important. La mort lenta de l'escalat del còmput d'entrenament no vol dir que la petjada ambiental de la IA s'estigui reduint. Ben al contrari:

El gruix del consum energètic de les càrregues de treball d'IA no és a l'entrenament, sinó al cost de posar en producció una càrrega d'ML i servir-la a milers de milions d'usuaris. Encara que la mida dels models tendeixi a la baixa, l'adopció generalitzada de la IA fa probable que les necessitats globals d'energia continuïn creixent.

Dit d'una altra manera: models més petits i amb més rendiment es despleguen a moltíssims més llocs, de manera que la petjada agregada d'energia i aigua de la IA continua creixent encara que el cost d'entrenament per model s'acabi estabilitzant. Les línies de treball de Strubell et al. (2019a), Patterson et al. (2021), Luccioni et al. (2025) i Wu et al. (2022) continuen sent fonamentals. Si de cas, el futur intensiu en inferència que descriu Hooker fa que l'eficiència del serving, l'aprofitament del maquinari i el desplegament conscient del carboni siguin més importants, no menys.

Ja n'he escrit abans, a propòsit de les regions operatives sobiranes viables: l'estructura de costos de la IA la determina cada vegada més la infraestructura de serving, no l'entrenament. El plantejament de Hooker ho reforça.

Tornarem mai a l'escalat?

La resposta de Hooker aquí és mesurada i val la pena citar-la:

Mentre estiguem encallats amb els transformers com a arquitectura, no té sentit continuar escalant el còmput. L'arquitectura actual mostra tots els símptomes d'un estancament en els retorns del còmput addicional. Tot i que el progrés ha girat al voltant de les xarxes neuronals profundes durant l'última dècada, hi ha molts indicis que el proper salt significatiu requerirà una arquitectura completament diferent.

La implicació és que l'escalat tornarà quan arribi una arquitectura nova que trenqui la corba actual de retorns i n'obri una de nova — exactament com van fer els transformers el 2017. Però escalar l'arquitectura actual és, cada cop més, capex perseguint retorns decreixents. Els laboratoris de frontera que liderin la propera onada no seran els que hauran escalat més fort. Seran els que hauran apostat per un canvi de paradigma.

Què m'enduc de tota la sèrie

Tres fils de l'assaig de Hooker que em semblen els més rellevants per a qualsevol que posi IA en producció el 2026:

La feina interessant torna a ser a les mans dels enginyers. Durant una dècada, el progrés de la IA va ser la història de qui es podia permetre més còmput. El gir cap a la tècnica algorítmica, el disseny de dades, el còmput en temps d'inferència i la interfície vol dir que la diferenciació interessant torna a dependre del criteri d'enginyeria — la tria de l'arquitectura de retrieval, la cura de les dades d'entrenament, el disseny dels bucles d'agent, l'estructura del human-in-the-loop. Aquest terreny és recuperable per a equips que no tenen un pressupost d'entrenament de 100 milions de dòlars.
Les assumpcions dominants de política i de capex envelleixen de pressa. Llindars de còmput a la legislació, marcs de «responsible scaling», fulls de ruta de proveïdors basats en «l'any que ve, més gran» — tot són artefactes d'una assumpció que avui és empíricament feble. Qualsevol pla que en depengui mereix una revisió a fons.
La propera arquitectura és el premi. L'oblit catastròfic, la ineficiència en l'ús de mostres, la incapacitat d'especialitzar regions de coneixement — aquests són els problemes durs que l'arquitectura actual no pot resoldre. Qui els resolgui posarà el comptador del camp a zero. I aquesta aposta és molt més interessant que «més paràmetres».

Hooker tanca l'assaig amb una cita de Turing que escau al moment: «Només hi veiem a poca distància, però hi veiem moltes coses que cal fer.» Si la frase encaixa és perquè, durant molt de temps, la informàtica va fer la sensació de no tenir gaire cosa a fer: en tenia una de sola, i caríssima. Per fi som a l'altra banda. La vista des d'aquí és més incerta, però la feina torna a ser interessant.

Aquest és l'últim post de la sèrie. La Part 1 explicava per què més gran ja no sempre és millor. La Part 2 desgranava què determina realment el retorn del còmput.

Referència: Sara Hooker, On the slow death of scaling, 2025.