Reptes

Economia dels Models Fundacionals: Com Desplegar IA Sense Tenir un Laboratori Frontera

Per Marc Molas·25 d’abril del 2026·9 min de lectura

La Stanford Emerging Technology Review 2026 posa números a quelcom que la majoria d'equips de producte porten dos anys assenyalant vagament: els models fundacionals són un tipus d'objecte diferent del programari que solíem desplegar, i l'economia que hi ha al darrere condiciona cada decisió aigües avall.

Algunes xifres que convé tenir al cap:

La base d'entrenament de GPT-4 era l'equivalent textual a uns 100 milions de llibres — al voltant de 10 bilions de paraules.
L'entrenament va usar uns 25.000 xips Nvidia A100 durant ~100 dies, a uns 10.000 dòlars per xip només en maquinari.
Electricitat de la fase d'entrenament per a un model tipus GPT-4: ~50 milions de kWh, l'energia anual d'uns 4.500 habitatges nord-americans.
Inferència per consulta de ChatGPT: ~2 Wh — davant de 0,3 Wh d'una cerca a Google i 2 Wh que conté una pila AAA.
Mercat global d'IA projectat en 244,22 mil milions de dòlars el 2025. La inversió privada en IA va arribar als 150,79 mil milions el 2024, amb la IA generativa sola en 33,94 mil milions.
Goldman Sachs estima que la IA generativa, àmpliament adoptada, podria augmentar el PIB global en ~7 bilions de dòlars i el creixement de la productivitat en 1,5 punts percentuals durant una dècada.

Si estàs construint productes sobre aquests models, tres d'aquestes xifres importen més que la resta: el cost d'inferència per consulta, la trajectòria d'aquest cost a mesura que es generalitzen els models de raonament, i el ritme amb què les alternatives open-weight tanquen la bretxa de capacitat.

L'Entrenament No És el Teu Problema. La Inferència Sí.

Gairebé ningú que llegeixi aquest post entrenarà un model frontera. L'economia ho fa impossible per a qualsevol "grup raonablement gran de les principals universitats de recerca dels EUA" — l'enquadrament de Stanford al mateix informe — i molt menys per a una empresa mid-market individual. La pregunta interessant no és "hauríem d'entrenar un model fundacional?" — és "com executem la inferència a un cost unitari que no mati el model de negoci?"

L'informe de Stanford assenyala una cosa que importa aquí: els models de raonament — models fundacionals que "pensen" els problemes pas a pas abans de respondre — han incrementat substancialment el cost d'inferència l'últim any. No és una nota al peu menor. Un producte amb preu basat en l'assumpció que una consulta d'usuari equival a una crida al model ara ha d'assumir que una consulta pot equivaler a desenes de crides internes, més invocacions d'eines, més reintents. L'economia unitària de "una consulta, una resposta" no aplica a càrregues agèntiques i de raonament.

Què significa això a la pràctica:

Deixa de fixar preus de funcionalitats d'IA sobre el cost d'inferència per token com si fos estable. Les cadenes de raonament, els bucles agèntics i les entrades multimodals fan saltar aquesta assumpció pels aires. Posa preu sobre el valor d'usuari, amb marge per a l'increment d'inferència.
Construeix observabilitat de cost al sistema des del dia u. Necessites telemetria de cost d'inferència per funcionalitat, per usuari, per tenant. Si no pots respondre "quant ens costa aquest usuari aquest mes?" no pots operar el negoci.
Tracta la destil·lació i els fallbacks a models petits com a treball d'enginyeria de primer ordre. L'informe descriu explícitament la destil·lació — comprimir models grans en altres més petits i ràpids — com una direcció clau. Els equips que sàpiguen enrutar les consultes fàcils a un model petit i reservar les crides al model frontera per a les difícils operaran a la meitat del cost d'inferència que els que no ho facin.

Open-Weight És Real. Tracta'l com una Decisió de Procurement.

L'informe anomena els líders obvis — tancats (GPT, Claude, Gemini), open-source/open-weight (Llama 4, Gemma 2, Command R) — i afegeix quelcom menys obvi: els llançaments open-source de DeepSeek estan accelerant l'adopció global i soscavant els esforços de contenció nord-americans. Pensis el que pensis sobre la geopolítica, la implicació d'enginyeria és clara: la bretxa entre els models tancats frontera i els open-weight competents es tanca prou ràpidament perquè escollir un únic proveïdor de model tancat com a base arquitectònica del teu producte sigui un risc de procurement, no només tècnic.

Tres coses per a les quals dissenyar:

Abstracció de proveïdor. Cada ruta de prompt del teu sistema hauria de poder intercanviar el model subjacent. El vendor lock-in via formats de tool-calling específics del SDK, embeddings específics del proveïdor o filtres de seguretat específics del proveïdor és deute tècnic amb etiqueta de preu.
Nivells de capacitat. Ordena els teus prompts per com de capaç necessita ser el model. La majoria de prompts en la majoria de productes no necessiten el frontera. Els equips que entenen això s'estalvien milions a l'any.
Self-hosted com a opció real. Si les teves dades són sensibles, el teu volum és alt i els teus requisits de latència són ajustats, un model open-weight afinat corrent a la teva pròpia infraestructura és una opció creïble — no un projecte de recerca.

El Cost Ocult: Dades, No Càlcul

L'informe és directe: "Els futurs guanys d'IA dependran cada cop més no només de gran capacitat de càlcul i grans quantitats de dades, sinó també de dades específiques del domini i innovacions centrades en eficiència."

Llegeix aquesta frase un altre cop, perquè és la més important del capítol per als equips de producte. Els proveïdors de models frontera ja s'han menjat l'internet públicament disponible. La següent ronda d'avantatge competitiu ve de les dades específiques del domini que els proveïdors frontera no tenen.

Si operes en una indústria regulada, especialitzada o intensiva en dades propietàries — legal, salut, serveis financers, sistemes industrials, comerç regional — el teu fossat de dades és l'actiu, no el model. El treball d'enginyeria que se'n deriva:

Generació de dades sintètiques. L'informe destaca les dades sintètiques — generades artificialment per imitar les propietats estadístiques de les dades reals — com a resposta a l'oferta limitada de dades reals. Això ja és una competència normal d'enginyeria, no recerca exòtica.
Fine-tuning abans que prompting. La majoria d'equips depenen excessivament dels prompts i infrainverteixen en fine-tuning. Per a tasques repetitives de domini, un model més petit afinat supera un model frontera amb prompts en cost, latència i consistència.
RAG ben fet. Retrieval-augmented generation és el default, però la majoria d'implementacions són la barreja de l'MVP d'algú. RAG real requereix arnesos d'avaluació, ajust de retrieval i curació contínua de dades. Els equips que s'ho prenen seriosament despleguen productes que funcionen; els que no, despleguen demos.

On Deixa Això els Equips d'Enginyeria Mid-Market

Si ets CTO o founder desplegant funcionalitats d'IA sense pressupost de laboratori frontera, l'enquadrament de Stanford deixa el playbook més clar que fa un any:

No entrenis. Destil·la, afina, enruta.
No t'enclaustris. Abstracció de proveïdor, nivells de capacitat, opcions self-hosted llestes.
Inverteix en dades. Dades de domini, dades sintètiques, arnesos d'avaluació, infraestructura RAG.
Mesura el cost d'inferència per usuari, per funcionalitat, per tenant. Els equips que operin així sobreviuran als que no.

On Encaixa Conectia

Vam construir Conectia sobre l'observació que els enginyers que poden operar dins d'aquest playbook són una població diferent dels "enginyers que saben usar ChatGPT". Les habilitats se superposen amb l'enginyeria sènior clàssica — disseny de sistemes, observabilitat, disciplina de costos, seguretat — i afegeixen una capa de judici específic d'IA: quan afinar enfront de prompting, quan n'hi ha prou amb un model petit, com escriure avaluacions que detectin regressions, com abstraure proveïdors sense sobreenginyeria.

Els nostres enginyers nearshore estan validats en cinc pilars incloent proficiència en IA, amb avaluació explícita d'aquestes decisions — no només "has usat Copilot?". Si estàs construint funcionalitats d'IA i al teu equip li falta la capa de judici, aquest és el buit que estem dissenyats per tancar. Mira com funciona la validació.

L'economia dels models frontera no tindrà sentit per al teu roadmap fins que la teva cultura d'enginyeria tracti el cost d'inferència, la qualitat de dades i la portabilitat de proveïdor com a preocupacions de primer ordre. Això és un problema de contractació abans de ser un problema de tooling.

Economia dels Models Fundacionals: Com Desplegar IA Sense Tenir un Laboratori Frontera

L'Entrenament No És el Teu Problema. La Inferència Sí.

Open-Weight És Real. Tracta'l com una Decisió de Procurement.

El Cost Ocult: Dades, No Càlcul

On Deixa Això els Equips d'Enginyeria Mid-Market

On Encaixa Conectia

Articles Relacionats

Agents d'IA el 2026: MCP, Límits de Memòria i el Mur d'Interoperabilitat

Integrant LLMs al Teu Producte: Guia Tècnica per a Startups

Els Modes de Fallada de la IA Són Ja un Tema de Top of Stack: un Playbook de Defensa d'Enginyeria

Preparat per construir el teu equip d'enginyeria?