← Tornar a tots els articles
Reptes

Més enllà de l'escalat: els nous espais d'optimització per al progrés de la IA

Per Marc Molas·26 de maig del 2026·9 min de lectura

A la Part 1 vam cobrir per què l'escalat ja no és un eix fiable de progrés. A la Part 2 vam repassar les quatre palanques que mouen la taxa de retorn real per unitat de còmput. El tancament natural de la sèrie — i la part de l'assaig de Sara Hooker que em va energitzar més — és la pregunta: cap a on hauria d'anar el camp ara?

La resposta de Hooker és que estem entrant en una era d'espais d'optimització expandits. Els informàtics solien tenir una sola palanca gran (entrenar un model més gran amb més dades) i això era alhora apoderador i confinant. El nou paisatge ens dóna un conjunt molt més ampli de coses per optimitzar, i moltes estan dramàticament infraexplorades. Anem a repassar les que ella destaca, i després abordem dues clarificacions importants que fa al final.

1. Exploració sense gradient: el còmput en temps d'inferència com a palanca de primera classe

Durant els últims 30 anys, la manera de millorar un model ha estat actualitzar-ne els paràmetres. Més entrenament, més dades, més pesos. La sortida que està passant ara mateix és que una gran part del còmput s'està gastant en temps d'inferència, no d'entrenament — i crucialment, molta és sense gradient, és a dir, el model en si no canvia.

Hooker agrupa aquesta família de tècniques sota els nous espais d'optimització "lleugers de còmput" i "sense gradient" (la seva Figura 5 els separa explícitament):

  • Best-of-N sampling. Mostreja múltiples completions, puntua-les, retorna la millor.
  • Cerca i planificació sobre generacions. Tree search, variants de beam search, bucles agèntics que exploren alternatives.
  • Ús d'eines. Un model que pot cridar una calculadora, una base de dades, un intèrpret de codi o un altre model efectivament demana prestada una capacitat que no ha de memoritzar.
  • Retrieval-augmented generation. Ja esmentat a la Part 2 — viu en aquesta categoria.
  • Eixams agèntics. Múltiples instàncies de model coordinant-se per resoldre un problema que una sola no podria.
  • Model merging. Combina els paràmetres de múltiples models fine-tuned sense entrenament addicional.
  • Còmput adaptatiu. Gasta més còmput d'inferència en problemes difícils, menys en els fàcils.

L'estimació de Davidson et al. (2023) és el titular: les tècniques de temps d'inferència poden entregar millores de 5×–20× sobre el rendiment base post-entrenament, amb una petjada mínima relativa al cost del pre-entrenament. Aquest és un ràtio de palanca enorme, i el capturen avui els equips que han decidit invertir en aquesta capa en lloc d'esperar la propera classe de mida de model.

La implicació estratègica és subtil però important. Les tècniques de temps d'inferència són enginyeria, no entrenament. Premien equips que poden entregar, instrumentar, avaluar i iterar ràpid. El coll d'ampolla es mou de "tens prou GPUs per entrenar" a "tens prou velocitat d'enginyeria per compondre, avaluar i entregar." Això és genuïnament una bona notícia per a organitzacions que no s'aguanten sobre una línia de capex de mida hyperscaler — que, una vegada més, som la majoria.

2. L'espai de dades mal·leable

El segon nou espai d'optimització de Hooker és el que ella anomena l'espai de dades mal·leable, i podria ser el canvi filosòficament més interessant de tot l'assaig.

Durant la major part de la història de la IA, els datasets eren artefactes congelats — MNIST, ImageNet, SQuAD, C4. N'escollies un, hi entrenaves, reportaves números. El dataset era una captura del món que casualment podies aplegar. La suposició fonamental del machine learning era IID — mostres extretes independent i idènticament d'una distribució fixa. Acceptàvem el que el món ens donava.

Què canvia quan la generació de dades sintètiques esdevé prou barata per tractar les dades mateixes com una cosa que s'optimitza?

  • Pots dirigir la distribució cap al que realment vols — incloent capacitats, llengües, casos extrems, balanç demogràfic — en lloc d'acceptar el que el corpus conté per casualitat.
  • Pots apuntar la cua llarga directament. Si el teu model és feble en una categoria específica, pots generar o sintetitzar exemples per a ella en lloc d'esperar que el proper scrape en contingui més.
  • Pots reduir el buit entre la distribució de temps d'entrenament i temps d'inferència. Històricament hi ha hagut una desfasada crònica: les dades d'entrenament les determina el que podies recollir; les entrades d'inferència les determina el que els usuaris fan realment. Les dades sintètiques poden tancar aquest buit deliberadament.
  • Pots fer visibles poblacions invisibles. La línia de treball Aya (Aryabumi et al. 2024; Üstün et al. 2024; Dang et al. 2024b) tracta en gran part d'utilitzar dades sintètiques i traducció per donar cobertura multilingüe que la web oberta no proveeix.

Aquest és un trencament fort respecte a "mostres IID de la natura." Ara som capaços de esbiaixar intencionadament la distribució cap al que esperem representar, en lloc d'acceptar una mostra aleatòria del que és. Això és alhora una capacitat enorme i una responsabilitat enorme — dades sintètiques fetes malament composen el biaix en lloc d'arreglar-lo.

Per als equips de producte, la conclusió pràctica és que has de tractar les teves dades d'entrenament/fine-tuning com una cosa que dissenyes, no com una cosa que aplegues. Si el teu model és feble en una llesca que importa, tens una palanca que no existia fa cinc anys.

3. Disseny i interfície

El tercer espai d'optimització que Hooker destaca és el que la majoria d'informàtics estan menys equipats per a: com el sistema interactua amb el món.

El sistema més intel·ligent es definirà cada vegada més per construir un algoritme que pugui interactuar amb el món. Això significa que per primera vegada els investigadors a qui els importa la intel·ligència també necessiten obsessionar-se amb com un model interactua. El que abans era la prerogativa estreta de dissenyadors UX, artistes i especialistes en interacció persona-ordinador, hauria de ser ara de gran interès per a tots els informàtics.

Això aterra fort perquè inverteix una suposició cultural de llarga data. El progrés de la IA ha estat històricament limitat per l'algoritme i ha tractat la interfície com un wrapper. Hooker està dient que la interfície s'està convertint en part de l'algoritme — i els sistemes més capaços seran sistemes multi-component la intel·ligència dels quals emergeix de com es componen els components i de com toquen el món, no de cap model individual fent-se més gran.

Això encaixa amb l'onada de sistemes agèntics però la reformula. Els sistemes agèntics interessants no són "model més gran + eines." Són superfícies d'interacció dissenyades amb cura: on el model obté informació, on pot actuar, què se li mostra a l'humà, què aprova l'humà, com flueix el feedback de retorn. Això és HCI, disseny de producte i enginyeria de sistemes — i és exactament el tipus de feina que històricament s'ha infravalorat als laboratoris d'IA.

Per a qualsevol que estigui entregant funcionalitats d'IA en producte, això és una bona notícia. La disciplina que ja tens en UX, en revisió de trust-and-safety, en disseny de fluxos de treball, en arquitectura human-in-the-loop — això és ara feina d'IA de primera classe. Ja no és un wrapper al voltant de la capacitat "de debò."

El que això no significa: la clarificació ambiental

Hooker té cura d'evitar una lectura errònia específica de l'assaig, i la vull repetir perquè és important. La mort lenta de l'escalat del còmput d'entrenament no significa que la petjada ambiental de la IA es redueixi. Al contrari:

La majoria dels requisits d'energia de les càrregues d'IA no és en l'entrenament, sinó en el cost de productivitzar una càrrega ML i servir-la a milers de milions d'usuaris. Encara que la mida del model tendeixi a la baixa, l'adopció generalitzada de la IA significa que els requisits globals d'energia probablement continuaran pujant.

És a dir: models més petits i més performants s'estan desplegant en moltíssims més llocs, de manera que la petjada agregada d'energia i aigua de la IA continua creixent encara que el cost d'entrenament per model potencialment s'estabilitzi. Les línies de treball de Strubell et al. (2019a), Patterson et al. (2021), Luccioni et al. (2025) i Wu et al. (2022) segueixen sent càrrega-portant. Si de cas, el futur intensiu en inferència que descriu Hooker fa que l'eficiència de serving, la utilització de hardware i el desplegament conscient del carboni siguin més importants, no menys.

He escrit abans sobre regions operatives sobiranes factibles sobre aquesta tensió exacta — que la història de costos per a la IA està cada vegada més determinada per la infraestructura de serving, no per l'entrenament. El marc de Hooker ho reforça.

Tornarem mai a l'escalat?

La resposta de Hooker aquí és mesurada i val la pena citar-la:

Mentre estiguem encallats amb els transformers com a arquitectura, no té sentit seguir escalant el còmput. La nostra arquitectura actual mostra tots els signes d'estancar-se en rendiments del còmput addicional. Mentre que el progrés ha girat al voltant de les xarxes neuronals profundes durant l'última dècada, hi ha molt que suggereix que el proper pas significatiu endavant requerirà una arquitectura completament diferent.

La implicació és que l'escalat tornarà quan arribi una nova arquitectura que trenqui la corba actual de rendiments i n'obri una de nova — exactament com van fer els transformers el 2017. Però escalar l'arquitectura actual és, cada vegada més, capex perseguint rendiments decreixents. Els laboratoris de frontera que liderin la propera onada no seran els que han escalat més fort. Seran els que han apostat per un canvi de paradigma.

El que m'enduc de tota la sèrie

Tres fils tirats de l'assaig de Hooker que penso que importen més per a qualsevol que entregui IA el 2026:

  1. La feina interessant torna a estar a mans dels enginyers. Durant una dècada, el progrés de la IA va ser una història sobre qui es podia permetre més còmput. El canvi cap a tècnica algorítmica, disseny de dades, còmput en temps d'inferència i interfície significa que la diferenciació interessant torna a ser sobre criteri d'enginyeria — elecció d'arquitectura de retrieval, curació de dades d'entrenament, disseny de bucles d'agent, estructura de human-in-the-loop. Aquest és terreny recuperable per a equips que no tenen un pressupost d'entrenament de 100M$.

  2. Les suposicions dominants de política i capex estan envellint ràpid. Llindars de còmput a la legislació, marcs de "responsible scaling", roadmaps de venedors basats en "l'any que ve, més gran" — tot són artefactes d'una suposició que ara és empíricament feble. Qualsevol pla que en depengui mereix una mirada nova.

  3. La propera arquitectura és el premi. Oblit catastròfic, ineficiència de mostres, la incapacitat per especialitzar regions de coneixement — aquests són els problemes durs que l'arquitectura actual no pot resoldre. Qui els resolgui reseta el camp. Aquesta és una aposta molt més interessant que "més paràmetres."

Hooker tanca l'assaig amb una cita de Turing que encaixa amb el moment: "Només podem veure a curta distància, però veiem molt allà que cal fer." La raó per la qual aterra és que, durant un tram llarg, la informàtica semblava no tenir gaire a fer — tenia una sola cosa a fer, molt cara. Finalment estem a l'altra banda d'això. La vista des d'aquí és més incerta, però la feina és més interessant de nou.


Aquest és l'últim post de la sèrie. La Part 1 cobria per què més gran ja no sempre és millor. La Part 2 repassava què mou realment la taxa de retorn del còmput.

Referència: Sara Hooker, On the slow death of scaling, 2025.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.