Sfide

Gli Utili Record di NVIDIA: Il Boom dell'Infrastruttura IA È Reale

Di Marc Molas·17 agosto 2023·9 min di lettura

I numeri parlano da soli. Quando NVIDIA ha riportato i risultati del Q1 FY2024 il 24 maggio 2023, il fatturato totale ha raggiunto 7,19 miliardi di dollari, con i ricavi del data center che sono balzati a 4,28 miliardi — in aumento del 14% rispetto al trimestre precedente e del 18% su base annua. Il titolo è saltato del 25% in una singola sessione after-hours, aggiungendo circa 200 miliardi di dollari di capitalizzazione di mercato in una notte. Non è un'anomalia. È uno spostamento tettonico.

E questo era solo l'antipasto. Le previsioni di NVIDIA per il Q2 FY2024 proiettavano ricavi di circa 11 miliardi di dollari, schiacciando le aspettative degli analisti di 7,2 miliardi. Il boom dei chip AI ha trasformato NVIDIA in una delle aziende più preziose del pianeta, superando brevemente la soglia del trilione di dollari di capitalizzazione di mercato a maggio.

Non è solo una storia per Wall Street. Se guidi un team di ingegneria, soprattutto uno che costruisce qualcosa che tocca il machine learning, questo boom dell'infrastruttura IA influenza direttamente le tue decisioni tecniche, i tuoi costi e le tue assunzioni.

Cosa Sta Alimentando la Crescita

La domanda arriva da ogni parte, contemporaneamente.

Gli hyperscaler sono in una corsa agli armamenti. Microsoft, Google, Amazon e Meta stanno espandendo aggressivamente la loro capacità di calcolo AI. Solo la partnership di Microsoft con OpenAI sta guidando enormi acquisizioni di GPU. Google sta addestrando Gemini. Meta sta addestrando Llama. Ognuno di questi sforzi richiede decine di migliaia di GPU A100 e H100. Gli hyperscaler stanno comprando tutto quello che NVIDIA può produrre e stanno piazzando ordini con anni di anticipo.

L'adozione dell'IA in azienda si accelera. Ogni azienda del Fortune 500 sta ora lanciando iniziative AI — non come progetti di ricerca ma come strategia aziendale centrale. Hanno bisogno di capacità di inferenza per i carichi di lavoro in produzione: motori di raccomandazione, rilevamento frodi, elaborazione del linguaggio naturale, computer vision. È una domanda costante e ricorrente, non un acquisto una tantum.

La gara all'addestramento dei LLM continua. Addestrare un grande modello di linguaggio frontier come GPT-4 richiede stimati migliaia di GPU in funzione per mesi. Ogni nuovo entrante nello spazio LLM — Anthropic, Cohere, Mistral e altri — ha bisogno di calcolo massiccio per addestrare modelli competitivi. E i modelli continuano a diventare sempre più grandi.

La Cina sta facendo scorte. Nonostante le restrizioni all'esportazione sui chip più avanzati, le aziende cinesi hanno acquistato ogni GPU NVIDIA che potevano acquisire legalmente.

Cosa Significa per i Costi e la Disponibilità delle GPU

Per i team di ingegneria, l'impatto pratico è chiaro: le GPU sono costose e difficili da ottenere.

Le istanze cloud GPU non sono diventate più economiche. Nonostante la normale tendenza alla riduzione dei costi del cloud, le istanze GPU sono rimaste stabili o sono aumentate di prezzo. Un'istanza A100 su AWS (p4d.24xlarge) costa ancora 32,77 $/ora on-demand. Le istanze H100 sono ancora più costose. La disponibilità spot è imprevedibile.

L'approvvigionamento di GPU on-premise ha lunghi tempi di consegna. Se volessi comprare GPU H100 direttamente, il tempo di attesa a metà 2023 era di 36-52 settimane. Dell, Supermicro e gli altri fornitori di server hanno ordini arretrati.

Stanno emergendo fornitori alternativi di GPU. Aziende come CoreWeave, Lambda Labs e Together AI stanno costruendo cloud GPU specificamente per i carichi di lavoro ML, spesso a prezzi del 30-50% inferiori agli hyperscaler. Vale la pena valutarli, soprattutto per i job di addestramento che non necessitano dell'ecosistema completo di AWS.

La Decisione Build vs. API È Diventata Più Critica

Per le startup che costruiscono prodotti basati sull'IA, il boom dell'infrastruttura rende la decisione build vs. buy più importante che mai. Ecco come la vedo:

Usa chiamate API (OpenAI, Anthropic, ecc.) quando:

Sei nella fase di sperimentazione. Non sai ancora se la funzionalità IA funzionerà o se i clienti la vogliono. Spendere 50-500 $/mese in chiamate API per validare il concetto è infinitamente più intelligente che provisionare un'infrastruttura GPU.
Il tuo volume di inferenza è basso o moderato. Se fai meno di 100.000 chiamate API al mese, l'economia unitaria delle chiamate API di solito batte il costo della tua infrastruttura.
Hai bisogno di capacità dei modelli frontier. Se il tuo caso d'uso richiede ragionamento di classe GPT-4 o le capacità analitiche di Claude, letteralmente non puoi replicarlo con i tuoi modelli.
Il tuo team non ha esperienza di infrastruttura ML. Eseguire l'inferenza GPU in produzione è un vero onere operativo. Se il tuo team è composto da quattro ingegneri che costruiscono un prodotto SaaS, non è qui che dovresti investire il tuo tempo.

Investi nella tua infrastruttura GPU quando:

I costi di inferenza sono una voce di spesa significativa. Se spendi più di 10.000 $/mese in chiamate API e il volume è prevedibile, eseguire i propri modelli può ridurre i costi del 60-80%.
La latenza è critica. Le chiamate API aggiungono latenza di rete. Se hai bisogno di inferenza sotto 100ms per un'applicazione in tempo reale, i modelli self-hosted su GPU dedicate ti danno controllo.
I requisiti di privacy dei dati vietano le API esterne. Se i tuoi dati non possono uscire dalla tua infrastruttura per ragioni regolamentari o contrattuali, devi eseguire i modelli localmente.
Hai bisogno di modelli fine-tuned. Se l'API generica non è abbastanza performante per il tuo dominio, avrai bisogno di infrastruttura GPU sia per l'addestramento che per l'inferenza.

L'approccio ibrido (quello che raccomando alla maggior parte delle startup):

Usa le API per il prototipaggio e il lancio iniziale. Porta il prodotto sul mercato velocemente.
Misura i tuoi costi e volumi di inferenza reali. Non ottimizzare prematuramente.
Quando i costi API raggiungono 5.000-10.000 $/mese e crescono, valuta il self-hosting. Fai i calcoli: costi cloud GPU vs. costi API a volumi proiettati. Includi il tempo di ingegneria per configurare e mantenere l'infrastruttura.
Inizia con cloud GPU gestiti, non gli hyperscaler. CoreWeave, Lambda o Replicate ti danno accesso alle GPU senza la complessità di provisionare istanze EC2 e gestire driver CUDA.

Implicazioni sui Prezzi dei Provider Cloud

La carenza di GPU si sta ripercuotendo sui prezzi cloud in modi che influenzano tutti i team di ingegneria:

Anche il calcolo generale non è diventato più economico. Normalmente, i provider cloud riducono i prezzi annualmente man mano che i costi hardware diminuiscono. Il boom IA sta consumando così tanto del CapEx degli hyperscaler che il solito ciclo di riduzione dei prezzi ha rallentato.

L'economia delle istanze riservate sta cambiando. Il solito consiglio di acquistare istanze riservate per i carichi di lavoro prevedibili è ancora valido, ma gli sconti si sono ridotti per le istanze GPU. I provider sanno che la capacità GPU è scarsa.

La leva multi-cloud conta di più. Quando la capacità GPU di un cloud si esaurisce, avere la capacità di scalare su un altro è prezioso. I team che hanno sufficientemente astratto la loro infrastruttura per essere portabili tra cloud hanno un vantaggio.

Implicazioni per le Startup che Costruiscono Prodotti IA

Se sei un fondatore o CTO che pensa allo sviluppo di prodotti IA in questo ambiente, ecco i miei consigli pratici:

Non costruire infrastruttura GPU prima di aver validato il prodotto. Lo spreco più grande che ho visto sono startup che investono sei cifre in infrastruttura GPU prima di validare che i clienti pagheranno per la funzionalità basata su IA. Usa le API.
Pianifica i costi di inferenza esplicitamente. L'inferenza IA non è gratuita e non scala come il calcolo tradizionale. Se il tuo prodotto fa 10 chiamate LLM per sessione utente, modella l'economia unitaria adesso.
Assumi ingegneri che capiscano i trade-off, non solo i modelli. Gli ingegneri ML più preziosi ora sono quelli che possono valutare se dovresti fare fine-tuning o usare un'API, stimare i costi di infrastruttura di ogni approccio e progettare un sistema che ti permetta di cambiare in seguito.
Segui da vicino l'ecosistema dei modelli open source. Llama 2, Mistral e il più ampio movimento LLM open source stanno rapidamente colmando il divario con le API proprietarie. Questo riduce direttamente la tua dipendenza da costose chiamate API.
Pianifica l'ottimizzazione dei costi in 12-18 mesi, non ora. L'offerta di NVIDIA alla fine raggiungerà la domanda. Il panorama delle infrastrutture nel 2024-2025 sarà molto diverso da oggi.

In Conectia, stiamo vedendo una domanda crescente da startup che hanno bisogno di ingegneri in grado di navigare queste decisioni di infrastruttura — non solo scrivere modelli ML ma progettare i sistemi intorno a loro. I nostri ingegneri senior LATAM includono specialisti backend e infrastruttura che hanno costruito prodotti basati sull'IA e comprendono in prima persona i trade-off build vs. buy.

Il boom dell'infrastruttura IA è reale, sta ridisegnando l'economia della costruzione di prodotti software e non sta per scomparire. La domanda per i leader dell'ingegneria non è se impegnarsi — è come farlo senza bruciare il proprio runway in bollette GPU.

Stai costruendo un prodotto IA e hai bisogno di ingegneri che capiscano i trade-off di infrastruttura, non solo i modelli? Parla con un CTO — i nostri ingegneri senior LATAM ti aiutano a lanciare funzionalità IA senza sovrainvestire in infrastruttura.