Retos

Resultados récord de NVIDIA: el boom de la infraestructura de IA va en serio

Por Marc Molas·17 de agosto de 2023·9 min de lectura

Los números hablan por sí solos. Cuando NVIDIA presentó sus resultados del Q1 FY2024 el 24 de mayo de 2023, los ingresos totales alcanzaron los 7.190 millones de dólares, y los de centro de datos se dispararon hasta los 4.280 millones: un 14% más que el trimestre anterior y un 18% más interanual. La acción subió un 25% en una sola sesión fuera de horario, sumando unos 200.000 millones de dólares de capitalización bursátil de la noche a la mañana. Eso no es un pico puntual. Es un movimiento tectónico.

Y esto era solo el aperitivo. Las previsiones de NVIDIA para el Q2 FY2024 apuntaban a unos ingresos de aproximadamente 11.000 millones de dólares, pulverizando los 7.200 millones que esperaban los analistas. Para cuando leas esto, los resultados del Q2 serán inminentes, y todo apunta a que serán aún más apabullantes. Como han cubierto a fondo Reuters y CNBC, el boom de los chips de IA ha convertido a NVIDIA en una de las empresas más valiosas del planeta: en mayo cruzó brevemente el umbral del billón de dólares de capitalización.

Esta no es solo una historia para Wall Street, y no voy a leerla como un analista. Lo que me interesa es el efecto de estos números aguas abajo: si lideras un equipo de ingeniería, sobre todo uno que construye algo que toca el machine learning, este boom de infraestructura afecta directamente a tus decisiones técnicas, a tus costes y a tu contratación.

Cuatro tipos de comprador empujan la demanda

La demanda viene de todas partes, y a la vez.

Los hyperscalers están en una carrera armamentística. Microsoft, Google, Amazon y Meta están ampliando agresivamente su capacidad de cómputo para IA. Solo la alianza de Microsoft con OpenAI ya mueve compras masivas de GPUs. Google entrena Gemini. Meta entrena Llama. Cada uno de esos esfuerzos requiere decenas de miles de GPUs A100 y H100. Los hyperscalers compran todo lo que NVIDIA es capaz de producir, y hacen pedidos con años de antelación.

La adopción de IA en la gran empresa se acelera. Todas las empresas del Fortune 500 tienen ya iniciativas de IA en marcha — no como proyectos de investigación, sino como estrategia de negocio. Necesitan capacidad de inferencia para cargas en producción: motores de recomendación, detección de fraude, procesamiento de lenguaje natural, visión artificial. Es demanda estable y recurrente, no una compra puntual.

La carrera por entrenar LLMs continúa. Se estima que entrenar un modelo de lenguaje de frontera como GPT-4 exige miles de GPUs funcionando durante meses. Cada nuevo actor en el espacio de los LLM — Anthropic, Cohere, Mistral y otros — necesita cómputo masivo para entrenar modelos competitivos. Y los modelos no dejan de crecer.

China está acumulando existencias. Pese a las restricciones a la exportación de los chips más avanzados, las empresas chinas llevan tiempo comprando todas las GPUs de NVIDIA que pueden adquirir legalmente, y la demanda de las alternativas compatibles con la normativa pero aún muy potentes (A800, H800) es enorme.

Las GPUs ahora son caras, escasas y tardan en llegar

Para los equipos de ingeniería, el impacto práctico se resume rápido: las GPUs son caras y difíciles de conseguir.

Las instancias de GPU en cloud no se han abaratado. Pese a la tendencia normal del cómputo cloud a bajar de precio con el tiempo, las instancias de GPU se han mantenido o han subido. Una instancia A100 en AWS (p4d.24xlarge) sigue costando 32,77 dólares la hora bajo demanda. Las instancias H100 (p5.48xlarge) son aún más caras. La disponibilidad spot es impredecible: puedes conseguir un buen precio o esperar horas a que haya capacidad.

Comprar GPUs on-premise implica plazos de entrega larguísimos. Si quisieras comprar GPUs H100 directamente, el tiempo de espera a mediados de 2023 rondaba, según lo publicado, las 36-52 semanas. Dell, Supermicro y el resto de fabricantes de servidores acumulan pedidos pendientes. Y no es un problema de cadena de suministro que se resuelva en un trimestre: la siguiente generación de arquitectura de NVIDIA está, como mínimo, a un año vista.

Están surgiendo proveedores alternativos de GPU. Empresas como CoreWeave, Lambda Labs y Together AI están montando nubes de GPU específicas para cargas de ML, a menudo con precios un 30-50% por debajo de los hyperscalers. Merece la pena evaluarlas, sobre todo para trabajos de entrenamiento que no necesitan todo el ecosistema de AWS.

La decisión entre construir o tirar de API importa más que nunca

Para las startups que construyen productos con IA, el boom de infraestructura hace más afilada que nunca la decisión de construir o comprar. Así es como yo la planteo:

Usa llamadas a API (OpenAI, Anthropic, etc.) cuando:

Estás en fase de experimentación. Todavía no sabes si la funcionalidad de IA va a funcionar ni si los clientes la quieren. Gastar 50-500 dólares al mes en llamadas a la API para validar el concepto es infinitamente más inteligente que aprovisionar infraestructura de GPU.
Tu volumen de inferencia es bajo o moderado. Si haces menos de 100.000 llamadas a la API al mes, los números unitarios de la API suelen salir mejor que el coste de operar tu propia infraestructura.
Necesitas capacidades de modelo de frontera. Si tu caso de uso requiere razonamiento de clase GPT-4 o las capacidades analíticas de Claude, hoy literalmente no puedes replicar eso con modelos propios. La API es tu única opción.
Tu equipo no tiene experiencia en infraestructura de ML. Servir inferencia sobre GPU en producción — escalado, failover, versionado de modelos, monitorización — es una carga operativa real. Si tu equipo son cuatro ingenieros construyendo un SaaS, no es ahí donde deberíais invertir el tiempo.

Invierte en tu propia infraestructura de GPU cuando:

La inferencia es una partida de coste significativa. Si gastas más de 10.000 dólares al mes en llamadas a la API y el volumen es predecible, ejecutar tus propios modelos (sobre todo alternativas open source como Llama 2) puede recortar los costes un 60-80%.
La latencia es crítica. Las llamadas a la API añaden latencia de red y dependen de las colas del proveedor. Si necesitas inferencia por debajo de los 100 ms para una aplicación en tiempo real, los modelos autoalojados en GPUs dedicadas te dan el control.
Los requisitos de privacidad de datos descartan las APIs externas. Si tus datos no pueden salir de tu infraestructura por motivos regulatorios o contractuales, necesitas ejecutar los modelos en local.
Necesitas modelos con fine-tuning. Si la API genérica no rinde lo suficiente en tu dominio y necesitas afinar modelos con tus propios datos, te hará falta infraestructura de GPU tanto para entrenamiento como para inferencia.

El enfoque híbrido (lo que recomiendo a la mayoría de startups):

Usa APIs para el prototipo y el lanzamiento inicial. Saca el producto al mercado rápido.
Mide tus costes y volúmenes reales de inferencia. No optimices antes de tiempo.
Cuando la factura de API alcance los 5.000-10.000 dólares al mes y siga creciendo, evalúa el self-hosting. Haz números: coste de cloud de GPU (no on-premise, todavía no) frente a coste de API a los volúmenes proyectados. Incluye el tiempo de ingeniería para montar y mantener la infraestructura.
Empieza con nubes de GPU gestionadas, no con los hyperscalers. CoreWeave, Lambda o Replicate te dan acceso a GPU sin la complejidad de aprovisionar instancias EC2 y pelearte con los drivers de CUDA.

La escasez está reajustando los precios de todo el cloud, no solo de las GPUs

La escasez de GPUs se está propagando por los precios del cloud de formas que afectan a todos los equipos de ingeniería, no solo a los de ML:

El cómputo general tampoco se ha abaratado. Lo normal es que los proveedores cloud bajen precios cada año a medida que cae el coste del hardware. El boom de la IA está consumiendo tanto CapEx de los hyperscalers que ese ciclo habitual de rebajas se ha frenado. AWS, GCP y Azure están invirtiendo con fuerza en capacidad de GPU, y esa inversión se paga con menos rebajas en el resto de tipos de instancia.

La economía de las instancias reservadas está cambiando. El consejo de siempre — «compra instancias reservadas para cargas predecibles» — sigue valiendo, pero los márgenes de descuento se han estrechado en las instancias de GPU. Los proveedores saben que la capacidad de GPU escasea y no tienen incentivos para ofrecer grandes descuentos.

La baza multi-cloud importa más. Cuando la capacidad de GPU de un cloud se agota, poder desbordar a otro tiene valor. Los equipos que han abstraído su infraestructura lo bastante como para ser portables entre nubes juegan con ventaja.

Qué haría yo si estuviera construyendo un producto de IA ahora mismo

Si eres fundador de una startup o CTO y estás pensando en desarrollar producto con IA en este entorno, este es mi consejo práctico:

No montes infraestructura de GPU hasta haber validado el producto. El mayor despilfarro que he visto son startups invirtiendo seis cifras en infraestructura de GPU antes de comprobar que los clientes pagarán por la funcionalidad de IA. Usa APIs. Son más caras por inferencia, pero infinitamente más baratas que construir infraestructura para un producto que no encuentra encaje en el mercado.
Presupuesta explícitamente los costes de inferencia. La inferencia de IA no es gratis y no escala como el cómputo tradicional. Si tu producto hace 10 llamadas a un LLM por sesión de usuario, modela los números unitarios ahora. ¿Cuánto cuesta servir a un cliente? ¿Eso escala?
Contrata ingenieros que entiendan los trade-offs, no solo los modelos. Los ingenieros de ML más valiosos ahora mismo no son los que saben afinar un modelo: son los que saben evaluar si deberías afinarlo o usar una API, estimar los costes de infraestructura de cada vía y diseñar un sistema que te permita cambiar más adelante.
Vigila de cerca el ecosistema de modelos open source. Llama 2 y el movimiento open source de LLMs en general están cerrando rápido la brecha con las APIs propietarias. Modelos que hace un año exigían 100.000 dólares de cómputo para entrenarse hoy se pueden afinar por 1.000. Esa tendencia reduce directamente tu dependencia de llamadas a API caras.
Planifica la optimización de costes para dentro de 12-18 meses, no para ahora. La oferta de NVIDIA acabará alcanzando la demanda. Saldrán nuevas arquitecturas de GPU. La competencia de AMD y del silicio a medida (las TPU de Google, Inferentia de Amazon) ampliará las opciones. El panorama de infraestructura de 2024-2025 se parecerá poco al de hoy. No sobreinviertas en las restricciones de hoy.

En Conectia estamos viendo una demanda creciente de startups que necesitan ingenieros capaces de navegar estas decisiones de infraestructura — no solo de escribir modelos de ML, sino de diseñar los sistemas que los rodean. Entre nuestros ingenieros senior de LATAM hay especialistas en backend e infraestructura que han construido productos con IA y conocen de primera mano los trade-offs de construir o comprar.

¿Hay algo de burbuja en todo esto? Probablemente: una subida del 25% en una sola sesión descuenta años de ejecución impecable, y yo no apostaría un runway a ninguna valoración. Pero la demanda que hay debajo del movimiento bursátil no es especulativa: son hyperscalers, grandes empresas y startups comprando cómputo para lanzar cosas. El boom de la infraestructura de IA es real, está reescribiendo la economía de construir productos de software y no va a desaparecer. La pregunta para quien lidera ingeniería no es si subirse — es cómo hacerlo sin quemar el runway en facturas de GPU.

¿Estás construyendo un producto con IA y necesitas ingenieros que entiendan los trade-offs de infraestructura, no solo los modelos? Habla con un CTO — nuestros ingenieros senior de LATAM te ayudan a lanzar funcionalidades de IA sin sobreinvertir en infraestructura.