Reptes

Resultats rècord de NVIDIA: el boom de la infraestructura d'IA va de debò

Per Marc Molas·17 d’agost del 2023·9 min de lectura

Les xifres parlen per si soles. Quan NVIDIA va presentar els resultats del Q1 FY2024, el 24 de maig de 2023, els ingressos totals van arribar als 7.190 milions de dòlars, i els de centre de dades es van disparar fins als 4.280 milions — un 14% més que el trimestre anterior i un 18% més interanual. L'acció va pujar un 25% en una sola sessió posterior al tancament del mercat i va afegir uns 200.000 milions de dòlars de capitalització d'un dia per l'altre. Això no és una anomalia puntual. És un moviment tectònic.

I això només era l'aperitiu. Les previsions de NVIDIA per al Q2 FY2024 apuntaven a uns ingressos d'aproximadament 11.000 milions de dòlars, molt per sobre dels 7.200 milions que esperaven els analistes. Quan llegeixis això, els resultats del Q2 seran imminents, i tots els indicadors apunten que encara seran més espectaculars. Com han cobert a bastament Reuters i la CNBC, el boom dels xips d'IA ha convertit NVIDIA en una de les empreses més valuoses del planeta — al maig va superar breument el llindar del bilió de dòlars de capitalització.

Això no és només una història per a Wall Street, i no penso llegir-la com un analista. El que m'interessa és què fan aquestes xifres aigües avall: si lideres un equip d'enginyeria, sobretot si construeix qualsevol cosa que toqui l'aprenentatge automàtic, aquest boom de la infraestructura d'IA afecta directament les teves decisions tècniques, els teus costos i les teves contractacions.

Quatre tipus de compradors empenyen aquesta onada

La demanda ve de tot arreu, i tota alhora.

Els hyperscalers estan en plena cursa d'armament. Microsoft, Google, Amazon i Meta estan ampliant agressivament la seva capacitat de còmput per a IA. Només l'aliança de Microsoft amb OpenAI ja implica compres massives de GPU. Google entrena Gemini. Meta entrena Llama. Cadascun d'aquests projectes necessita desenes de milers de GPU A100 i H100. Els hyperscalers compren tot el que NVIDIA pot produir, i fan comandes amb anys d'antelació.

L'adopció de la IA a les empreses s'accelera. Totes les empreses del Fortune 500 tenen ara iniciatives d'IA en marxa — no com a projectes de recerca, sinó com a estratègia de negoci de primer ordre. Necessiten capacitat d'inferència per a càrregues de producció: motors de recomanació, detecció de frau, processament de llenguatge natural, visió artificial. És demanda estable i recurrent, no una compra puntual.

La cursa per entrenar LLM continua. S'estima que entrenar un model de llenguatge de frontera com GPT-4 requereix milers de GPU funcionant durant mesos. Cada nou actor de l'espai LLM — Anthropic, Cohere, Mistral i companyia — necessita còmput massiu per entrenar models competitius. I els models no paren de créixer.

La Xina acumula estocs. Malgrat les restriccions a l'exportació dels xips més avançats, les empreses xineses han estat comprant totes les GPU de NVIDIA que poden adquirir legalment, i la demanda de les alternatives que compleixen la normativa però encara són potents (A800, H800) és enorme.

Les GPU ara són cares, escasses i triguen a arribar

Per als equips d'enginyeria, l'impacte pràctic és senzill d'enunciar: les GPU són cares i costen d'aconseguir.

Les instàncies de GPU al cloud no s'han abaratit. Tot i que el cost del còmput al núvol tendeix a baixar amb el temps, les instàncies de GPU s'han mantingut o han pujat de preu. Una instància A100 a AWS (p4d.24xlarge) encara surt a 32,77 $/hora en mode on-demand. Les H100 (p5.48xlarge) són encara més cares. La disponibilitat spot és imprevisible: pots trobar una ganga o pots passar-te hores esperant capacitat.

Comprar GPU per a on-premise vol dir esperar mesos. Si volies comprar H100 directament, a mitjan 2023 el termini d'espera era, segons es publicava, de 36 a 52 setmanes. Dell, Supermicro i la resta de fabricants de servidors van endarrerits de comandes. I no és un problema de cadena de subministrament que es resolgui en un trimestre: la pròxima arquitectura de NVIDIA és, com a mínim, a un any vista.

Estan apareixent proveïdors alternatius de GPU. Empreses com CoreWeave, Lambda Labs i Together AI estan construint núvols de GPU pensats específicament per a càrregues de ML, sovint a preus un 30-50% per sota dels hyperscalers. Val la pena avaluar-los, sobretot per a entrenaments que no necessiten tot l'ecosistema d'AWS.

La decisió build vs. API acaba de guanyar pes

Per a les startups que construeixen producte sobre IA, el boom d'infraestructura fa que la decisió de construir o comprar sigui més esmolada que mai. Així és com m'ho miro:

Fes servir crides a API (OpenAI, Anthropic, etc.) quan:

Ets en fase d'experimentació. Encara no saps si la funcionalitat d'IA funcionarà ni si els clients la voldran. Gastar entre 50 i 500 $/mes en crides a API per validar el concepte és infinitament més assenyat que aprovisionar infraestructura de GPU.
El teu volum d'inferència és baix o moderat. Si fas menys de 100.000 crides a API al mes, l'economia unitària de l'API normalment guanya el cost de mantenir infraestructura pròpia.
Necessites capacitats de model de frontera. Si el teu cas d'ús demana raonament de nivell GPT-4 o la capacitat analítica de Claude, de moment no ho pots replicar amb models propis, literalment. L'API és l'única opció.
El teu equip no té experiència en infraestructura de ML. Servir inferència sobre GPU en producció — escalat, failover, versionat de models, monitoratge — és una càrrega operativa real. Si el teu equip són quatre enginyers construint un SaaS, no és aquí on hauríeu de gastar el temps.

Inverteix en infraestructura de GPU pròpia quan:

Els costos d'inferència són una partida rellevant. Si gastes més de 10.000 $/mes en crides a API i el volum és previsible, servir models propis (sobretot alternatives open source com Llama 2) pot retallar els costos un 60-80%.
La latència és crítica. Les crides a API afegeixen latència de xarxa i depenen de les cues del proveïdor. Si necessites inferència per sota dels 100 ms en una aplicació en temps real, els models autoallotjats en GPU dedicades et donen el control.
Els requisits de privadesa de dades et tanquen la porta a les API externes. Si les teves dades no poden sortir de la teva infraestructura per motius regulatoris o contractuals, has d'executar els models en local.
Necessites models amb fine-tuning. Si l'API genèrica no rendeix prou bé per al teu domini i necessites afinar models amb les teves pròpies dades, et caldrà infraestructura de GPU tant per a l'entrenament com per a la inferència.

L'enfocament híbrid (el que recomano a la majoria de startups):

Fes servir API per al prototip i el llançament inicial. Treu el producte al mercat de pressa.
Mesura els costos i volums d'inferència reals. No optimitzis abans d'hora.
Quan la factura d'API arribi als 5.000-10.000 $/mes i vagi pujant, planteja't el self-hosting. Fes números: cost del cloud de GPU (no on-premise, encara no) contra cost d'API als volums projectats. Inclou-hi les hores d'enginyeria per muntar i mantenir la infraestructura.
Comença amb núvols de GPU gestionats, no amb hyperscalers. CoreWeave, Lambda o Replicate et donen accés a GPU sense la complexitat d'aprovisionar instàncies EC2 i barallar-te amb els controladors CUDA.

L'escassetat encareix tot el cloud, no només les GPU

L'escassetat de GPU s'està filtrant als preus del cloud de maneres que afecten tots els equips d'enginyeria, no només els de ML:

El còmput general tampoc no s'ha abaratit. Normalment els proveïdors de cloud abaixen preus cada any a mesura que el maquinari es fa més barat. El boom de la IA està consumint una part tan gran del CapEx dels hyperscalers que el cicle habitual de rebaixes s'ha alentit. AWS, GCP i Azure estan invertint fort en capacitat de GPU, i aquesta inversió va en detriment de les rebaixes a la resta de tipus d'instància.

L'economia de les instàncies reservades està canviant. El consell de sempre — «compra instàncies reservades per a càrregues previsibles» — continua valent, però els marges de descompte s'han estret en les instàncies de GPU. Els proveïdors saben que la capacitat de GPU és escassa i no tenen cap incentiu per oferir grans descomptes.

Poder jugar a diversos núvols compta més que mai. Quan la capacitat de GPU d'un núvol s'esgota, poder desbordar cap a un altre té valor. Els equips que han abstret prou la seva infraestructura per ser portables entre núvols hi juguen amb avantatge.

Què faria jo si ara mateix estigués construint un producte d'IA

Si ets fundador d'una startup o CTO i et planteges desenvolupar producte d'IA en aquest entorn, aquest és el meu consell pràctic:

No muntis infraestructura de GPU fins que el producte estigui validat. El malbaratament més gran que he vist són startups invertint sis xifres en infraestructura de GPU abans de confirmar que els clients pagaran per la funcionalitat d'IA. Fes servir API. Surten més cares per inferència, però són infinitament més barates que construir infraestructura per a un producte que no troba encaix de mercat.
Pressuposta els costos d'inferència de manera explícita. La inferència d'IA no és gratuïta i no escala com el còmput tradicional. Si el teu producte fa 10 crides a un LLM per sessió d'usuari, modela l'economia unitària ara. Què costa servir un client? Aquest cost, escala?
Contracta enginyers que entenguin els trade-offs, no només els models. Els enginyers de ML més valuosos ara mateix no són els que saben fer fine-tuning d'un model: són els que saben avaluar si et convé el fine-tuning o una API, estimar els costos d'infraestructura de cada opció i dissenyar un sistema que et permeti canviar més endavant.
Segueix de prop l'ecosistema de models open source. Llama 2 i el moviment LLM open source en general estan tancant ràpidament la distància amb les API propietàries. Models que fa un any costaven 100.000 dòlars de còmput d'entrenament avui es poden afinar per 1.000. Aquesta tendència redueix directament la teva dependència de les crides a API cares.
Planifica l'optimització de costos per d'aquí a 12-18 mesos, no per ara. L'oferta de NVIDIA tard o d'hora es posarà al dia. Sortiran noves arquitectures de GPU. La competència d'AMD i del silici a mida (les TPU de Google, Inferentia d'Amazon) ampliarà les opcions. El panorama d'infraestructura del 2024-2025 s'assemblarà poc al d'avui. No sobreinverteixis en les restriccions d'avui.

A Conectia veiem una demanda creixent de startups que necessiten enginyers capaços de navegar aquestes decisions d'infraestructura — no només d'escriure models de ML, sinó de dissenyar els sistemes que els envolten. Entre els nostres enginyers sèniors de LATAM hi ha especialistes en backend i infraestructura que han construït productes d'IA i coneixen de primera mà els trade-offs de construir o comprar.

Que si hi ha bombolla en tot això? Probablement: una pujada del 25% en una sola sessió descompta anys d'execució impecable, i jo no m'hi jugaria el runway per cap valoració. Però la demanda que hi ha sota el moviment borsari no és especulativa: són hyperscalers, empreses i startups comprant còmput per treure coses a producció. El boom de la infraestructura d'IA és real, està canviant l'economia de construir programari i no marxarà. La pregunta per als líders d'enginyeria no és si cal pujar-hi: és com fer-ho sense cremar el runway en factures de GPU.

Estàs construint un producte d'IA i necessites enginyers que entenguin els trade-offs d'infraestructura, no només els models? Parla amb un CTO — els nostres enginyers sèniors de LATAM t'ajuden a llançar funcionalitats d'IA sense sobreinvertir en infraestructura.