← Volver a todos los artículos
Retos

Las Ganancias Récord de NVIDIA: El Boom de Infraestructura IA Es Real

Por Marc Molas·17 de agosto de 2023·9 min de lectura

Los números hablan por sí solos. Cuando NVIDIA reportó sus resultados del Q1 FY2024 el 24 de mayo de 2023, los ingresos totales alcanzaron 7.190 millones de dólares, con los ingresos del centro de datos disparándose a 4.280 millones — un 14% más respecto al trimestre anterior y un 18% interanual. Las acciones saltaron un 25% en una sola sesión fuera de horario, añadiendo aproximadamente 200.000 millones de dólares en capitalización bursátil en una noche. Eso no es una anomalía. Es un cambio tectónico.

Y esto era solo el aperitivo. Las previsiones de NVIDIA para el Q2 FY2024 proyectaban ingresos de aproximadamente 11.000 millones de dólares, aplastando las expectativas de los analistas de 7.200 millones. El boom de chips de IA ha convertido a NVIDIA en una de las empresas más valiosas del planeta, cruzando brevemente el umbral del billón de dólares de capitalización bursátil en mayo.

Esto no es solo una historia para Wall Street. Si lideras un equipo de ingeniería, especialmente uno que construye algo relacionado con el aprendizaje automático, este boom de infraestructura IA afecta directamente a tus decisiones técnicas, tus costes y tu contratación.

Qué Impulsa el Alza

La demanda viene de todas partes, a la vez.

Los hyperscalers están en una carrera armamentística. Microsoft, Google, Amazon y Meta están expandiendo agresivamente su capacidad de cómputo de IA. Solo la asociación de Microsoft con OpenAI está impulsando una enorme adquisición de GPUs. Google está entrenando Gemini. Meta está entrenando Llama. Cada uno de estos esfuerzos requiere decenas de miles de GPUs A100 y H100. Los hyperscalers están comprando todo lo que NVIDIA puede producir y colocando pedidos con años de antelación.

La adopción empresarial de IA se acelera. Todas las empresas del Fortune 500 están ejecutando iniciativas de IA — no como proyectos de investigación sino como estrategia de negocio central. Necesitan capacidad de inferencia para cargas de trabajo en producción: motores de recomendación, detección de fraude, procesamiento de lenguaje natural, visión por computadora. Es una demanda constante y recurrente, no una compra puntual.

La carrera de entrenamiento de LLM continúa. Entrenar un modelo de lenguaje grande de frontera como GPT-4 requiere estimadamente miles de GPUs funcionando durante meses. Cada nuevo competidor en el espacio LLM — Anthropic, Cohere, Mistral y otros — necesita cómputo masivo para entrenar modelos competitivos. Y los modelos siguen creciendo.

China está acaparando existencias. A pesar de las restricciones a la exportación sobre los chips más avanzados, las empresas chinas han estado comprando cada GPU de NVIDIA que pueden adquirir legalmente.

Qué Significa para los Costes y Disponibilidad de GPU

Para los equipos de ingeniería, el impacto práctico es claro: las GPUs son caras y difíciles de conseguir.

Las instancias cloud de GPU no se han abaratado. A pesar de la tendencia normal de reducción de costes del cómputo cloud, las instancias de GPU se han mantenido estables o han aumentado de precio. Una instancia A100 en AWS (p4d.24xlarge) sigue costando 32,77 dólares/hora bajo demanda. Las instancias H100 son aún más caras. La disponibilidad de instancias spot es impredecible.

La adquisición de GPU on-premise tiene largos plazos de entrega. Si quisieras comprar GPUs H100 directamente, el tiempo de espera a mediados de 2023 era de 36 a 52 semanas. Dell, Supermicro y otros fabricantes tienen pedidos atrasados.

Están surgiendo proveedores alternativos de GPU. Empresas como CoreWeave, Lambda Labs y Together AI están construyendo nubes de GPU específicamente para cargas de trabajo de ML, a menudo con precios un 30-50% por debajo de los hyperscalers. Vale la pena evaluarlos, especialmente para trabajos de entrenamiento que no necesitan el ecosistema completo de AWS.

La Decisión Build vs. API Se Ha Vuelto Más Crítica

Para startups que construyen productos basados en IA, el boom de infraestructura hace que la decisión de build vs. buy sea más importante que nunca. Así lo analizo:

Usa llamadas a API (OpenAI, Anthropic, etc.) cuando:

  • Estás en fase de experimentación. No sabes todavía si la función de IA funcionará o si los clientes la quieren. Gastar 50-500 dólares/mes en llamadas API para validar el concepto es infinitamente más inteligente que aprovisionar infraestructura GPU.
  • Tu volumen de inferencia es bajo o moderado. Si haces menos de 100.000 llamadas API al mes, la economía unitaria de las llamadas API generalmente supera el coste de tu propia infraestructura.
  • Necesitas capacidades de modelos de frontera. Si tu caso de uso requiere razonamiento de clase GPT-4 o las capacidades analíticas de Claude, literalmente no puedes replicarlo con tus propios modelos todavía.
  • Tu equipo no tiene experiencia en infraestructura ML. Ejecutar inferencia GPU en producción es una carga operativa real. Si tu equipo son cuatro ingenieros construyendo un producto SaaS, aquí no deberías estar invirtiendo tu tiempo.

Invierte en tu propia infraestructura GPU cuando:

  • Los costes de inferencia son una partida significativa. Si gastas más de 10.000 dólares/mes en llamadas API y el volumen es predecible, ejecutar tus propios modelos puede reducir costes un 60-80%.
  • La latencia es crítica. Las llamadas API añaden latencia de red. Si necesitas inferencia por debajo de 100ms para una aplicación en tiempo real, los modelos auto-alojados en GPUs dedicadas te dan control.
  • Los requisitos de privacidad de datos prohíben APIs externas. Si tus datos no pueden salir de tu infraestructura por razones regulatorias o contractuales, necesitas ejecutar modelos localmente.
  • Necesitas modelos fine-tuned. Si la API genérica no rinde lo suficientemente bien para tu dominio, necesitarás infraestructura GPU tanto para entrenamiento como para inferencia.

El enfoque híbrido (lo que recomiendo a la mayoría de startups):

  • Usa APIs para prototipado y lanzamiento inicial. Lleva el producto al mercado rápido.
  • Mide tus costes e volúmenes de inferencia reales. No optimices prematuramente.
  • Cuando los costes de API lleguen a 5.000-10.000 dólares/mes y crezcan, evalúa el self-hosting. Haz los números: costes de nube GPU vs. costes de API a volúmenes proyectados. Incluye el tiempo de ingeniería para configurar y mantener la infraestructura.
  • Empieza con nubes GPU gestionadas, no hyperscalers. CoreWeave, Lambda o Replicate te dan acceso a GPU sin la complejidad de aprovisionar instancias EC2 y gestionar controladores CUDA.

Implicaciones para el Pricing de Proveedores Cloud

La escasez de GPU está afectando el pricing cloud de formas que impactan a todos los equipos de ingeniería:

El cómputo general tampoco se ha abaratado. Normalmente, los proveedores cloud reducen precios anualmente a medida que disminuyen los costes de hardware. El boom de IA está consumiendo tanto del CapEx de los hyperscalers que el ciclo habitual de reducción de precios se ha ralentizado.

La economía de las instancias reservadas está cambiando. El consejo habitual de "compra instancias reservadas para cargas de trabajo predecibles" sigue siendo válido, pero los descuentos para instancias GPU se han reducido. Los proveedores saben que la capacidad GPU es escasa.

El apalancamiento multi-cloud importa más. Cuando la capacidad GPU de un cloud se agota, poder escalar a otro es valioso. Los equipos que han abstraído suficientemente su infraestructura para ser portables entre nubes tienen ventaja.

Implicaciones para Startups que Construyen Productos de IA

Si eres fundador o CTO pensando en el desarrollo de productos IA en este entorno, mi consejo práctico:

  1. No construyas infraestructura GPU hasta haber validado el producto. El mayor desperdicio que he visto son startups invirtiendo seis cifras en infraestructura GPU antes de validar que los clientes pagarán por la función basada en IA. Usa APIs.

  2. Presupuesta los costes de inferencia explícitamente. La inferencia de IA no es gratuita y no escala como el cómputo tradicional. Si tu producto hace 10 llamadas LLM por sesión de usuario, modela la economía unitaria ahora.

  3. Contrata ingenieros que entiendan los trade-offs, no solo los modelos. Los ingenieros ML más valiosos ahora son los que pueden evaluar si debes hacer fine-tuning o usar una API, estimar los costes de infraestructura de cada enfoque y diseñar un sistema que te permita cambiar más adelante.

  4. Sigue de cerca el ecosistema de modelos open source. Llama 2, Mistral y el movimiento más amplio de LLMs open source están cerrando rápidamente la brecha con las APIs propietarias. Esto reduce directamente tu dependencia de costosas llamadas API.

  5. Planifica la optimización de costes en 12-18 meses, no ahora. La oferta de NVIDIA eventualmente alcanzará la demanda. El panorama de infraestructura en 2024-2025 tendrá un aspecto muy diferente al de hoy.

En Conectia, vemos una demanda creciente de startups que necesitan ingenieros capaces de navegar estas decisiones de infraestructura — no solo escribir modelos ML sino diseñar los sistemas a su alrededor. Nuestros ingenieros senior de LATAM incluyen especialistas en backend e infraestructura que han construido productos impulsados por IA y entienden de primera mano los trade-offs de build vs. buy.

El boom de infraestructura IA es real, está transformando la economía de construir productos software y no va a desaparecer. La pregunta para los líderes de ingeniería no es si involucrarse — es cómo hacerlo sin quemar tu runway en facturas de GPU.


¿Construyendo un producto de IA y necesitas ingenieros que entiendan los trade-offs de infraestructura, no solo los modelos? Habla con un CTO — nuestros ingenieros senior de LATAM te ayudan a lanzar funciones de IA sin sobreinvertir en infraestructura.

¿Listo para construir tu equipo de ingeniería?

Habla con un partner técnico y despliega ingenieros validados por CTOs en 72 horas.