Els Guanys Rècord de NVIDIA: El Boom d'Infraestructura IA És Real
Els números parlen per si sols. Quan NVIDIA va reportar els seus resultats del Q1 FY2024 el 24 de maig de 2023, els ingressos totals van arribar a 7.190 milions de dòlars, amb els ingressos del centre de dades disparant-se fins a 4.280 milions — un 14% més respecte al trimestre anterior i un 18% interanual. Les accions van saltar un 25% en una sola sessió fora d'horari, afegint aproximadament 200.000 milions de dòlars en capitalització borsària en una nit. Això no és una anomalia. És un canvi tectònic.
I això era només l'aperitiu. Les previsions de NVIDIA per al Q2 FY2024 projectaven ingressos d'aproximadament 11.000 milions de dòlars, aixafant les expectatives dels analistes de 7.200 milions. El boom de xips d'IA ha convertit NVIDIA en una de les empreses més valuoses del planeta, creuant breument el llindar del bilió de dòlars de capitalització borsària al maig.
Això no és només una història per a Wall Street. Si lideres un equip d'enginyeria, especialment un que construeix alguna cosa relacionada amb l'aprenentatge automàtic, aquest boom d'infraestructura IA afecta directament les teves decisions tècniques, els teus costos i la teva contractació.
Què Impulsa l'Alça
La demanda ve de tot arreu, alhora.
Els hyperscalers estan en una cursa armamentística. Microsoft, Google, Amazon i Meta estan expandint agressivament la seva capacitat de càlcul d'IA. Només la col·laboració de Microsoft amb OpenAI està impulsant una enorme adquisició de GPUs. Google està entrenant Gemini. Meta està entrenant Llama. Cadascun d'aquests esforços requereix desenes de milers de GPUs A100 i H100. Els hyperscalers estan comprant tot el que NVIDIA pot produir i fent comandes amb anys d'antelació.
L'adopció empresarial de l'IA s'accelera. Totes les empreses del Fortune 500 estan executant ara iniciatives d'IA — no com a projectes de recerca sinó com a estratègia de negoci central. Necessiten capacitat d'inferència per a càrregues de treball en producció: motors de recomanació, detecció de frau, processament de llenguatge natural, visió per computadora. És una demanda constant i recurrent, no una compra puntual.
La cursa d'entrenament de LLM continua. S'estima que entrenar un gran model de llenguatge frontier com GPT-4 requereix milers de GPUs funcionant durant mesos. Cada nou competidor en l'espai LLM — Anthropic, Cohere, Mistral i altres — necessita càlcul massiu per entrenar models competitius. I els models continuen creixent.
La Xina fa estoc. Malgrat les restriccions a l'exportació sobre els xips més avançats, les empreses xineses han comprat cada GPU de NVIDIA que han pogut adquirir legalment.
Què Significa per als Costos i la Disponibilitat de GPU
Per als equips d'enginyeria, l'impacte pràctic és clar: les GPUs són cares i difícils d'obtenir.
Les instàncies cloud de GPU no s'han abaratit. Malgrat la tendència normal de reducció de costos del càlcul cloud, les instàncies GPU s'han mantingut estables o han augmentat de preu. Una instància A100 a AWS (p4d.24xlarge) encara costa 32,77 $/hora sota demanda. Les instàncies H100 són encara més cares. La disponibilitat d'instàncies spot és impredictible.
L'aprovisionament de GPU on-premise té llargs terminis de lliurament. Si volguessis comprar GPUs H100 directament, el temps d'espera a mitjan 2023 era de 36 a 52 setmanes. Dell, Supermicro i altres fabricadors de servidors tenen comandes pendents.
Estan sorgint proveïdors alternatius de GPU. Empreses com CoreWeave, Lambda Labs i Together AI estan construint núvols de GPU específicament per a càrregues de treball ML, sovint a preus un 30-50% per sota dels hyperscalers. Val la pena avaluar-los, especialment per a treballs d'entrenament que no necessiten l'ecosistema complet d'AWS.
La Decisió Build vs. API S'Ha Tornat Més Crítica
Per a startups que construeixen productes basats en IA, el boom d'infraestructura fa que la decisió de build vs. buy sigui més important que mai. Aquí és com ho analitzo:
Usa crides a API (OpenAI, Anthropic, etc.) quan:
- Estàs en fase d'experimentació. Encara no saps si la funció d'IA funcionarà o si els clients la volen. Gastar 50-500 $/mes en crides API per validar el concepte és infinitament més intel·ligent que aprovisionar infraestructura GPU.
- El teu volum d'inferència és baix o moderat. Si fas menys de 100.000 crides API al mes, l'economia unitària de les crides API generalment supera el cost de la teva pròpia infraestructura.
- Necessites capacitats de models frontier. Si el teu cas d'ús requereix raonament de classe GPT-4 o les capacitats analítiques de Claude, literalment no pots replicar-lo amb els teus propis models.
- El teu equip no té experiència en infraestructura ML. Executar inferència GPU en producció és una càrrega operativa real. Si el teu equip és de quatre enginyers construint un producte SaaS, aquí no hauries d'invertir el teu temps.
Inverteix en la teva pròpia infraestructura GPU quan:
- Els costos d'inferència són una partida significativa. Si gastes més de 10.000 $/mes en crides API i el volum és predictible, executar els teus propis models pot reduir costos un 60-80%.
- La latència és crítica. Les crides API afegeixen latència de xarxa. Si necessites inferència per sota de 100ms per a una aplicació en temps real, els models auto-allotjats en GPUs dedicades et donen control.
- Els requisits de privacitat de dades prohibeixen APIs externes. Si les teves dades no poden sortir de la teva infraestructura per raons regulatòries o contractuals, has d'executar models localment.
- Necessites models fine-tuned. Si l'API genèrica no rendeix prou bé per al teu domini, necessitaràs infraestructura GPU tant per a entrenament com per a inferència.
L'enfocament híbrid (el que recomano a la majoria de startups):
- Usa APIs per al prototipatge i llançament inicial. Porta el producte al mercat ràpid.
- Mesura els teus costos i volums d'inferència reals. No optimitzis prematurament.
- Quan els costos API arribin a 5.000-10.000 $/mes i creixin, avalua el self-hosting. Fes els números: costos de núvol GPU vs. costos API a volums projectats. Inclou el temps d'enginyeria per configurar i mantenir la infraestructura.
- Comença amb núvols GPU gestionats, no hyperscalers. CoreWeave, Lambda o Replicate et donen accés a GPU sense la complexitat d'aprovisionar instàncies EC2 i gestionar controladors CUDA.
Implicacions per al Pricing dels Proveïdors Cloud
L'escassetat de GPU s'està transmetent als preus cloud de maneres que afecten tots els equips d'enginyeria:
El càlcul general tampoc s'ha abaratit. Normalment, els proveïdors cloud redueixen preus anualment a mesura que disminueixen els costos de maquinari. El boom d'IA està consumint tant del CapEx dels hyperscalers que el cicle habitual de reducció de preus s'ha alentit.
L'economia de les instàncies reservades està canviant. El consell habitual de "compra instàncies reservades per a càrregues de treball predictibles" segueix sent vàlid, però els descomptes s'han reduït per a les instàncies GPU. Els proveïdors saben que la capacitat GPU és escassa.
L'apalancament multi-cloud importa més. Quan la capacitat GPU d'un núvol s'esgota, tenir la capacitat d'escalar a un altre és valuós. Els equips que han abstraet prou la seva infraestructura per ser portables entre núvols tenen avantatge.
Implicacions per a Startups que Construeixen Productes d'IA
Si ets fundador o CTO pensant en el desenvolupament de productes d'IA en aquest entorn, aquí el meu consell pràctic:
-
No construeixis infraestructura GPU fins haver validat el producte. El major malbaratament que he vist són startups invertint sis xifres en infraestructura GPU abans de validar que els clients pagaran per la funció basada en IA. Usa APIs.
-
Pressuporta els costos d'inferència explícitament. La inferència d'IA no és gratuïta i no escala com el càlcul tradicional. Si el teu producte fa 10 crides LLM per sessió d'usuari, modela l'economia unitària ara.
-
Contracta enginyers que entenguin els trade-offs, no només els models. Els enginyers ML més valuosos ara són els que poden avaluar si hauries de fer fine-tuning o usar una API, estimar els costos d'infraestructura de cada enfocament i dissenyar un sistema que et permeti canviar més endavant.
-
Segueix de prop l'ecosistema de models open source. Llama 2, Mistral i el moviment LLM open source més ampli estan tancant ràpidament la bretxa amb les APIs propietàries. Això redueix directament la teva dependència de crides API costoses.
-
Planifica l'optimització de costos en 12-18 mesos, no ara. L'oferta de NVIDIA eventualment agafarà la demanda. El panorama d'infraestructura en 2024-2025 tindrà un aspecte molt diferent al d'avui.
A Conectia, veiem una demanda creixent de startups que necessiten enginyers capaços de navegar aquestes decisions d'infraestructura — no només escriure models ML sinó dissenyar els sistemes al seu voltant. Els nostres enginyers senior de LATAM inclouen especialistes en backend i infraestructura que han construït productes basats en IA i entenen de primera mà els trade-offs de build vs. buy.
El boom d'infraestructura IA és real, està remodelant l'economia de construir productes de programari i no desapareixerà. La pregunta per als líders d'enginyeria no és si involucrar-se — és com fer-ho sense cremar el runway en factures de GPU.
Construint un producte d'IA i necessites enginyers que entenguin els trade-offs d'infraestructura, no només models? Parla amb un CTO — els nostres enginyers senior de LATAM t'ajuden a llançar funcions d'IA sense sobreinvertir en infraestructura.


