Défis

Les Bénéfices Records de NVIDIA : Le Boom de l'Infrastructure IA Est Réel

Par Marc Molas·17 août 2023·9 min de lecture

Les chiffres parlent d'eux-mêmes. Quand NVIDIA a publié ses résultats du T1 FY2024 le 24 mai 2023, le chiffre d'affaires total a atteint 7,19 milliards de dollars, avec les revenus du centre de données qui ont bondi à 4,28 milliards — en hausse de 14% par rapport au trimestre précédent et de 18% en glissement annuel. L'action a grimpé de 25% en une seule séance hors bourse, ajoutant environ 200 milliards de dollars de capitalisation boursière en une nuit. Ce n'est pas une anomalie. C'est un changement tectonique.

Et ce n'était que l'entrée. Les prévisions de NVIDIA pour le T2 FY2024 projetaient un chiffre d'affaires d'environ 11 milliards de dollars, écrasant les attentes des analystes de 7,2 milliards. Le boom des puces IA a fait de NVIDIA l'une des entreprises les plus précieuses de la planète, franchissant brièvement le seuil du billion de dollars de capitalisation boursière en mai.

Ce n'est pas qu'une histoire pour Wall Street. Si vous dirigez une équipe d'ingénierie, surtout une qui construit quelque chose qui touche au machine learning, ce boom de l'infrastructure IA affecte directement vos décisions techniques, vos coûts et vos recrutements.

Ce Qui Alimente la Hausse

La demande vient de partout, en même temps.

Les hyperscalers sont dans une course aux armements. Microsoft, Google, Amazon et Meta élargissent agressivement leurs capacités de calcul IA. Le seul partenariat de Microsoft avec OpenAI entraîne d'énormes achats de GPU. Google entraîne Gemini. Meta entraîne Llama. Chacun de ces efforts nécessite des dizaines de milliers de GPU A100 et H100. Les hyperscalers achètent tout ce que NVIDIA peut produire et passent des commandes des années à l'avance.

L'adoption de l'IA en entreprise s'accélère. Toutes les entreprises du Fortune 500 lancent maintenant des initiatives IA — non pas comme projets de recherche mais comme stratégie commerciale centrale. Elles ont besoin de capacité d'inférence pour les charges de travail en production : moteurs de recommandation, détection de fraude, traitement du langage naturel, vision par ordinateur. C'est une demande constante et récurrente, pas un achat ponctuel.

La course à l'entraînement des LLM continue. Entraîner un grand modèle de langage frontier comme GPT-4 nécessiterait des milliers de GPU fonctionnant pendant des mois. Chaque nouvel entrant dans l'espace LLM — Anthropic, Cohere, Mistral et autres — a besoin d'un calcul massif pour entraîner des modèles compétitifs. Et les modèles ne cessent de grossir.

La Chine fait des stocks. Malgré les restrictions à l'exportation sur les puces les plus avancées, les entreprises chinoises ont acheté tous les GPU NVIDIA qu'elles pouvaient légalement acquérir.

Ce Que Cela Signifie pour les Coûts et la Disponibilité des GPU

Pour les équipes d'ingénierie, l'impact pratique est clair : les GPU sont chers et difficiles à obtenir.

Les instances cloud GPU n'ont pas baissé de prix. Malgré la tendance normale à la réduction des coûts du cloud, les instances GPU sont restées stables ou ont augmenté de prix. Une instance A100 sur AWS (p4d.24xlarge) coûte toujours 32,77 $/heure à la demande. Les instances H100 sont encore plus chères. La disponibilité spot est imprévisible.

L'approvisionnement en GPU on-premise a de longs délais. Si vous vouliez acheter des GPU H100 directement, le délai d'attente mi-2023 était de 36 à 52 semaines. Dell, Supermicro et les autres fabricants sont en rupture de stock.

Des fournisseurs GPU alternatifs émergent. Des entreprises comme CoreWeave, Lambda Labs et Together AI construisent des clouds GPU spécifiquement pour les charges de travail ML, souvent à des prix 30-50% inférieurs aux hyperscalers. Ils valent la peine d'être évalués, surtout pour les jobs d'entraînement qui n'ont pas besoin de l'écosystème complet d'AWS.

La Décision Build vs. API Est Plus Importante Que Jamais

Pour les startups qui construisent des produits basés sur l'IA, le boom de l'infrastructure rend la décision build vs. buy plus critique que jamais. Voici comment je l'analyse :

Utilisez des appels API (OpenAI, Anthropic, etc.) quand :

Vous êtes en phase d'expérimentation. Vous ne savez pas encore si la fonctionnalité IA fonctionnera ou si les clients la veulent. Dépenser 50 à 500 $/mois en appels API pour valider le concept est infiniment plus intelligent que de provisionner une infrastructure GPU.
Votre volume d'inférence est faible à modéré. Si vous faites moins de 100 000 appels API par mois, l'économie unitaire des appels API bat généralement le coût de votre propre infrastructure.
Vous avez besoin de capacités de modèles frontier. Si votre cas d'usage requiert un raisonnement de classe GPT-4 ou les capacités analytiques de Claude, vous ne pouvez littéralement pas le répliquer avec vos propres modèles.
Votre équipe n'a pas d'expertise en infrastructure ML. Exécuter l'inférence GPU en production est une vraie charge opérationnelle. Si votre équipe est composée de quatre ingénieurs construisant un produit SaaS, ce n'est pas là que vous devriez investir votre temps.

Investissez dans votre propre infrastructure GPU quand :

Les coûts d'inférence représentent un poste de dépense significatif. Si vous dépensez plus de 10 000 $/mois en appels API et que le volume est prévisible, exécuter vos propres modèles peut réduire les coûts de 60 à 80%.
La latence est critique. Les appels API ajoutent une latence réseau. Si vous avez besoin d'une inférence sous 100ms pour une application temps réel, les modèles auto-hébergés sur des GPU dédiés vous donnent le contrôle.
Les exigences de confidentialité des données interdisent les APIs externes. Si vos données ne peuvent pas quitter votre infrastructure pour des raisons réglementaires ou contractuelles, vous devez exécuter les modèles localement.
Vous avez besoin de modèles fine-tunés. Si l'API générique n'est pas assez performante pour votre domaine, vous aurez besoin d'une infrastructure GPU pour l'entraînement et l'inférence.

L'approche hybride (ce que je recommande à la plupart des startups) :

Utilisez les APIs pour le prototypage et le lancement initial. Mettez le produit sur le marché rapidement.
Mesurez vos coûts et volumes d'inférence réels. N'optimisez pas prématurément.
Quand les coûts API atteignent 5 000 à 10 000 $/mois et croissent, évaluez le self-hosting. Faites les calculs : coûts du cloud GPU vs. coûts API à volumes projetés. Incluez le temps d'ingénierie pour configurer et maintenir l'infrastructure.
Commencez par des clouds GPU gérés, pas les hyperscalers. CoreWeave, Lambda ou Replicate vous donnent accès aux GPU sans la complexité de provisionner des instances EC2 et gérer des pilotes CUDA.

Implications sur les Prix des Fournisseurs Cloud

La pénurie de GPU se répercute sur les prix cloud d'une manière qui affecte toutes les équipes d'ingénierie :

Le calcul général n'a pas non plus baissé de prix. Normalement, les fournisseurs cloud réduisent leurs prix annuellement à mesure que les coûts matériels diminuent. Le boom IA consomme tellement du CapEx des hyperscalers que le cycle habituel de réduction des prix a ralenti.

L'économie des instances réservées change. Le conseil habituel d'acheter des instances réservées pour les charges de travail prévisibles reste valable, mais les remises se sont réduites pour les instances GPU. Les fournisseurs savent que la capacité GPU est rare.

L'effet de levier multi-cloud compte davantage. Quand la capacité GPU d'un cloud est épuisée, pouvoir basculer sur un autre est précieux. Les équipes qui ont suffisamment abstrait leur infrastructure pour être portables entre clouds ont un avantage.

Implications pour les Startups qui Construisent des Produits IA

Si vous êtes fondateur ou CTO en train de réfléchir au développement de produits IA dans cet environnement, voici mes conseils pratiques :

Ne construisez pas d'infrastructure GPU avant d'avoir validé le produit. Le plus grand gaspillage que j'ai vu, ce sont des startups investissant six chiffres en infrastructure GPU avant de valider que les clients paieront pour la fonctionnalité IA. Utilisez des APIs.
Budgétisez les coûts d'inférence explicitement. L'inférence IA n'est pas gratuite et ne scale pas comme le calcul traditionnel. Si votre produit fait 10 appels LLM par session utilisateur, modélisez l'économie unitaire maintenant.
Recrutez des ingénieurs qui comprennent les trade-offs, pas juste les modèles. Les ingénieurs ML les plus précieux maintenant sont ceux qui peuvent évaluer si vous devriez fine-tuner un modèle ou utiliser une API, estimer les coûts d'infrastructure de chaque approche, et concevoir un système qui vous permet de changer plus tard.
Suivez de près l'écosystème des modèles open source. Llama 2, Mistral et le mouvement LLM open source plus large comblent rapidement l'écart avec les APIs propriétaires. Cela réduit directement votre dépendance aux appels API coûteux.
Planifiez l'optimisation des coûts dans 12 à 18 mois, pas maintenant. L'offre de NVIDIA finira par rattraper la demande. Le paysage de l'infrastructure en 2024-2025 sera très différent d'aujourd'hui.

Chez Conectia, nous voyons une demande croissante de startups qui ont besoin d'ingénieurs capables de naviguer ces décisions d'infrastructure — pas juste écrire des modèles ML mais concevoir les systèmes autour d'eux. Nos ingénieurs senior LATAM incluent des spécialistes backend et infrastructure qui ont construit des produits basés sur l'IA et comprennent de première main les trade-offs build vs. buy.

Le boom de l'infrastructure IA est réel, il transforme l'économie de la construction de produits logiciels et il n'est pas près de disparaître. La question pour les leaders d'ingénierie n'est pas de savoir s'il faut s'y engager — c'est comment le faire sans brûler votre runway sur des factures GPU.

Vous construisez un produit IA et avez besoin d'ingénieurs qui comprennent les trade-offs d'infrastructure, pas juste les modèles ? Parlez à un CTO — nos ingénieurs senior LATAM vous aident à lancer des fonctionnalités IA sans surinvestir dans l'infrastructure.