Desafios

Os Resultados Récord da NVIDIA: O Boom da Infraestrutura IA É Real

Por Marc Molas·17 de agosto de 2023·9 min de leitura

Os números falam por si. Quando a NVIDIA reportou os seus resultados do Q1 FY2024 a 24 de maio de 2023, a receita total atingiu 7,19 mil milhões de dólares, com os receitas do centro de dados a disparar para 4,28 mil milhões — um aumento de 14% face ao trimestre anterior e 18% em termos homólogos. As ações subiram 25% numa única sessão fora de horas, acrescentando cerca de 200 mil milhões de dólares em capitalização bolsista numa noite. Não é uma anomalia. É uma mudança tectónica.

E isto era apenas o aperitivo. As previsões da NVIDIA para o Q2 FY2024 projetavam receitas de aproximadamente 11 mil milhões de dólares, esmagando as expectativas dos analistas de 7,2 mil milhões. O boom dos chips de IA transformou a NVIDIA numa das empresas mais valiosas do planeta, ultrapassando brevemente o limiar do bilião de dólares de capitalização bolsista em maio.

Não é apenas uma história para Wall Street. Se lideras uma equipa de engenharia, especialmente uma que constrói algo relacionado com machine learning, este boom da infraestrutura IA afeta diretamente as tuas decisões técnicas, os teus custos e as tuas contratações.

O Que Está a Impulsionar a Subida

A procura vem de todo o lado, ao mesmo tempo.

Os hyperscalers estão numa corrida ao armamento. A Microsoft, Google, Amazon e Meta estão a expandir agressivamente a sua capacidade de computação IA. Só a parceria da Microsoft com a OpenAI está a impulsionar uma enorme aquisição de GPU. A Google está a treinar o Gemini. A Meta está a treinar o Llama. Cada um destes esforços requer dezenas de milhares de GPU A100 e H100. Os hyperscalers estão a comprar tudo o que a NVIDIA consegue produzir e a fazer encomendas com anos de antecedência.

A adoção empresarial de IA está a acelerar. Todas as empresas do Fortune 500 estão agora a executar iniciativas de IA — não como projetos de investigação mas como estratégia central de negócio. Precisam de capacidade de inferência para cargas de trabalho em produção: motores de recomendação, deteção de fraude, processamento de linguagem natural, visão computacional. É uma procura constante e recorrente, não uma compra pontual.

A corrida ao treino de LLM continua. Treinar um grande modelo de linguagem frontier como o GPT-4 estima-se que requer milhares de GPU em funcionamento durante meses. Cada novo participante no espaço LLM — Anthropic, Cohere, Mistral e outros — precisa de computação massiva para treinar modelos competitivos. E os modelos continuam a crescer.

A China está a fazer stockpiling. Apesar das restrições à exportação sobre os chips mais avançados, as empresas chinesas têm comprado todas as GPU NVIDIA que podem adquirir legalmente.

O Que Isto Significa para os Custos e Disponibilidade de GPU

Para as equipas de engenharia, o impacto prático é claro: as GPU são caras e difíceis de obter.

As instâncias cloud de GPU não ficaram mais baratas. Apesar da tendência normal de redução dos custos de computação cloud, as instâncias GPU mantiveram-se estáveis ou aumentaram de preço. Uma instância A100 na AWS (p4d.24xlarge) ainda custa 32,77 $/hora on-demand. As instâncias H100 são ainda mais caras. A disponibilidade spot é imprevisível.

O aprovisionamento de GPU on-premise tem longos prazos de entrega. Se quisesses comprar GPU H100 diretamente, o tempo de espera em meados de 2023 era de 36 a 52 semanas. Dell, Supermicro e outros fabricantes têm encomendas atrasadas.

Estão a surgir fornecedores alternativos de GPU. Empresas como a CoreWeave, Lambda Labs e Together AI estão a construir clouds GPU especificamente para cargas de trabalho ML, frequentemente a preços 30-50% abaixo dos hyperscalers. Vale a pena avaliá-los, especialmente para jobs de treino que não precisam do ecossistema completo da AWS.

A Decisão Build vs. API Tornou-se Mais Crítica

Para startups que constroem produtos baseados em IA, o boom da infraestrutura torna a decisão de build vs. buy mais importante do que nunca. Eis como analiso:

Usa chamadas API (OpenAI, Anthropic, etc.) quando:

Estás na fase de experimentação. Ainda não sabes se a funcionalidade IA vai funcionar ou se os clientes a querem. Gastar 50-500 $/mês em chamadas API para validar o conceito é infinitamente mais inteligente do que provisionar infraestrutura GPU.
O teu volume de inferência é baixo a moderado. Se fazeres menos de 100.000 chamadas API por mês, a economia unitária das chamadas API geralmente supera o custo da tua própria infraestrutura.
Precisas de capacidades de modelos frontier. Se o teu caso de uso requer raciocínio de classe GPT-4 ou as capacidades analíticas do Claude, literalmente não consegues replicá-lo com os teus próprios modelos.
A tua equipa não tem experiência em infraestrutura ML. Executar inferência GPU em produção é um verdadeiro encargo operacional. Se a tua equipa são quatro engenheiros a construir um produto SaaS, não é aqui que deves investir o teu tempo.

Investe na tua própria infraestrutura GPU quando:

Os custos de inferência são uma rubrica de despesa significativa. Se gastas mais de 10.000 $/mês em chamadas API e o volume é previsível, executar os teus próprios modelos pode reduzir os custos em 60-80%.
A latência é crítica. As chamadas API adicionam latência de rede. Se precisas de inferência abaixo de 100ms para uma aplicação em tempo real, modelos self-hosted em GPU dedicadas dão-te controlo.
Os requisitos de privacidade de dados proíbem APIs externas. Se os teus dados não podem sair da tua infraestrutura por razões regulatórias ou contratuais, precisas de executar modelos localmente.
Precisas de modelos fine-tuned. Se a API genérica não tem desempenho suficiente para o teu domínio, vais precisar de infraestrutura GPU tanto para treino como para inferência.

A abordagem híbrida (o que recomendo à maioria das startups):

Usa APIs para prototipagem e lançamento inicial. Leva o produto ao mercado rapidamente.
Mede os teus custos e volumes de inferência reais. Não otimizes prematuramente.
Quando os custos API atingem 5.000-10.000 $/mês e crescem, avalia o self-hosting. Faz as contas: custos de cloud GPU vs. custos API a volumes projetados. Inclui o tempo de engenharia para configurar e manter a infraestrutura.
Começa com clouds GPU geridas, não hyperscalers. CoreWeave, Lambda ou Replicate dão-te acesso a GPU sem a complexidade de provisionar instâncias EC2 e gerir drivers CUDA.

Implicações nos Preços dos Fornecedores Cloud

A escassez de GPU está a repercutir-se nos preços cloud de formas que afetam todas as equipas de engenharia:

A computação geral também não ficou mais barata. Normalmente, os fornecedores cloud reduzem preços anualmente à medida que os custos de hardware diminuem. O boom IA está a consumir tanto do CapEx dos hyperscalers que o habitual ciclo de redução de preços abrandou.

A economia das instâncias reservadas está a mudar. O conselho habitual de comprar instâncias reservadas para cargas de trabalho previsíveis ainda é válido, mas os descontos reduziram-se para instâncias GPU. Os fornecedores sabem que a capacidade GPU é escassa.

O leverage multi-cloud importa mais. Quando a capacidade GPU de um cloud se esgota, ter a capacidade de escalar para outro é valioso. As equipas que abstraíram suficientemente a sua infraestrutura para serem portáteis entre clouds têm vantagem.

Implicações para Startups que Constroem Produtos IA

Se és fundador ou CTO a pensar no desenvolvimento de produtos IA neste ambiente, eis os meus conselhos práticos:

Não construas infraestrutura GPU antes de teres validado o produto. O maior desperdício que vi são startups a investir seis dígitos em infraestrutura GPU antes de validar que os clientes vão pagar pela funcionalidade baseada em IA. Usa APIs.
Orça os custos de inferência explicitamente. A inferência IA não é gratuita e não escala como a computação tradicional. Se o teu produto faz 10 chamadas LLM por sessão de utilizador, modela a economia unitária agora.
Contrata engenheiros que entendam os trade-offs, não apenas os modelos. Os engenheiros ML mais valiosos agora são os que podem avaliar se deves fazer fine-tuning ou usar uma API, estimar os custos de infraestrutura de cada abordagem e arquitetar um sistema que te permita mudar mais tarde.
Acompanha de perto o ecossistema de modelos open source. O Llama 2, Mistral e o mais amplo movimento LLM open source estão a fechar rapidamente a lacuna com as APIs proprietárias. Isso reduz diretamente a tua dependência de chamadas API caras.
Planeia a otimização de custos em 12-18 meses, não agora. A oferta da NVIDIA acabará por alcançar a procura. O panorama de infraestrutura em 2024-2025 será muito diferente do de hoje.

Na Conectia, estamos a ver uma procura crescente de startups que precisam de engenheiros capazes de navegar estas decisões de infraestrutura — não apenas escrever modelos ML mas arquitetar os sistemas em torno deles. Os nossos engenheiros sénior LATAM incluem especialistas em backend e infraestrutura que construíram produtos baseados em IA e entendem em primeira mão os trade-offs de build vs. buy.

O boom da infraestrutura IA é real, está a remodelar a economia de construir produtos de software e não vai desaparecer. A questão para os líderes de engenharia não é se devem envolver-se — é como fazê-lo sem queimar o seu runway em faturas de GPU.

A construir um produto IA e precisas de engenheiros que entendam os trade-offs de infraestrutura, não apenas modelos? Fala com um CTO — os nossos engenheiros sénior LATAM ajudam-te a lançar funcionalidades IA sem sobreinvestir em infraestrutura.