Retos

Meta libera Llama 2 como open source: qué cambia para los equipos de ingeniería

Por Marc Molas·31 de julio de 2023·9 min de lectura

El 18 de julio de 2023, Meta publicó Llama 2, una familia de grandes modelos de lenguaje disponible tanto para investigación como para uso comercial. El lanzamiento incluye modelos de 7B, 13B y 70B parámetros, preentrenados y afinados para chat, con una licencia que permite desplegarlos comercialmente. Es la primera vez que un modelo competitivo con GPT-3.5 puede descargarse, ejecutarse y modificarse sin pagar por token.

Para los equipos de ingeniería que construyen productos con IA, esto cambia de raíz el mapa de decisiones. La pregunta que me llega de los fundadores técnicos ya no es «¿podemos acceder a un buen LLM?», sino «¿deberíamos operar el nuestro?». Mi respuesta: probablemente todavía no, pero por primera vez es una pregunta seria, y así es como yo la pensaría.

Qué es Llama 2 en realidad

Llama 2 es una colección de modelos de lenguaje basados en transformers, entrenados con 2 billones de tokens de datos públicos. El modelo de 7B cabe en una sola GPU. El de 70B exige una infraestructura seria, pero se acerca al rendimiento de GPT-3.5 en la mayoría de los benchmarks.

Lo que importa para un equipo de ingeniería:

Licencia comercial. A diferencia del Llama original, Llama 2 puede usarse en productos comerciales. Las restricciones solo afectan a aplicaciones con más de 700 millones de usuarios activos mensuales — para una startup, la licencia es abierta a efectos prácticos.
Variantes optimizadas para chat. Meta ha publicado tanto los modelos base como versiones de chat afinadas con RLHF. No hace falta hacer fine-tuning desde cero para los casos de uso conversacionales.
Disponible en todas partes. Hugging Face, Microsoft Azure, descarga directa. La barrera es tu hardware, no una lista de espera.

¿Construir o comprar? La cuenta ha cambiado

Hasta ahora, la decisión de IA para la mayoría de startups era simple: usar la API de OpenAI. GPT-3.5 y GPT-4 son buenos, la API es cómoda, y operar modelos propios resultaba inviable sin ingenieros de ML dedicados e infraestructura de GPU.

Llama 2 añade una tercera vía: operar tu propio modelo. Estos son los casos en los que cada camino tiene sentido.

Cuándo la API de OpenAI sigue siendo la opción correcta

Estás prototipando. No montes infraestructura para comprobar si una funcionalidad de IA aporta valor. Llama a la API, valida, itera.
Necesitas la calidad de GPT-4. Llama 2 70B compite con GPT-3.5, no con GPT-4. Si tu producto depende del razonamiento de GPT-4, la API sigue siendo tu mejor opción.
Tu volumen es bajo. Unos cientos de llamadas diarias a la API no cuestan casi nada. El punto de equilibrio de una infraestructura propia empieza en los miles de peticiones al día.

Cuándo tiene sentido operar Llama 2

La privacidad de los datos no es negociable. Este es el motivo de más peso. Cuando llamas a la API de OpenAI, tus datos pasan por sus servidores. En sanidad, en el sector legal, en finanzas o en cualquier dominio con regulación estricta, eso es un problema. Con Llama 2, los datos de tus usuarios nunca salen de tu entorno. Para las empresas europeas que lidian con el RGPD, en muchos casos de uso esto es directamente un requisito de cumplimiento.
Necesitas control sobre el fine-tuning. El ajuste fino que ofrece OpenAI es limitado. Con Llama 2, afinas el modelo con los datos de tu dominio y con control total. Terminología médica, documentos legales, jerga sectorial: un modelo abierto te da mucha más flexibilidad.
El coste a escala. Los costes de API crecen de forma lineal. Una infraestructura propia tiene costes fijos altos pero costes marginales bajos. Una sola GPU A100 ejecutando Llama 2 7B absorbe un volumen considerable a una tarifa mensual fija, frente al precio por token.

La realidad de la ingeniería

Operar tu propio LLM no es trivial. El marketing lo pinta como descargar un modelo y estar ya en producción. La realidad:

Infraestructura. Llama 2 7B necesita unos 14 GB de VRAM. El de 70B requiere varias GPUs. Una instancia A100 en la nube cuesta entre 2 y 4 dólares la hora. Las versiones cuantizadas del modelo reducen los requisitos a cambio de una pequeña pérdida de calidad.

Servir el modelo. Necesitas una capa que gestione peticiones concurrentes, administre la memoria de la GPU y agrupe las solicitudes en lotes de forma eficiente. Herramientas como vLLM o text-generation-inference de Hugging Face resuelven esto, pero exigen ingenieros que entiendan el stack de inferencia.

Experiencia en fine-tuning. Bucles de entrenamiento, preparación de datos, métricas de evaluación, ajuste de hiperparámetros: no es tarea para un junior. Requiere experiencia real en ingeniería de ML.

Monitorización. La evaluación de LLMs sigue siendo un problema sin resolver. Necesitas pipelines de evaluación, circuitos de feedback de usuarios y monitorización de calidad. Sin eso, vuelas a ciegas.

La implicación para el equipo: operar tu propio LLM exige ingenieros de ML o una inversión seria en formación. Para una startup de 5 a 10 personas, es una inversión real.

El camino que yo seguiría

Empieza con la API. Valida las funcionalidades de IA antes de invertir en infraestructura.
Evalúa la privacidad. Si tus datos pueden pasar por una API de terceros, quédate ahí. Si no pueden, pon Llama 2 en tu hoja de ruta.
Primero en un sandbox. Pasa tus casos de uso por Llama 2 y compara la calidad con GPT-3.5 antes de comprometerte con infraestructura de producción.
Construye de forma incremental. Empieza con una sola GPU y un modelo 7B cuantizado para una única funcionalidad. Crece desde ahí.
Vigila el ecosistema. Cada semana aparecen variantes afinadas, técnicas de cuantización y herramientas de serving. Lo que hoy es difícil será más fácil dentro de seis meses.

La trayectoria a largo plazo es clara: los LLMs se están convirtiendo en una commodity. La ventaja competitiva no será el acceso al modelo, sino cómo lo apliques a tu dominio, a tus datos y a tus usuarios. Los equipos que dominen el despliegue, el fine-tuning y la evaluación construirán mejores productos que los que traten la IA como una llamada a una API de caja negra.

En Conectia vemos una demanda creciente de startups que necesitan ingenieros capaces de cerrar la distancia entre un modelo descargado y una funcionalidad en producción. Esa distancia — no el modelo — es donde vive ahora el valor de ingeniería.

¿Estás construyendo funcionalidades de IA y necesitas ingenieros que entiendan el stack completo, del serving del modelo a la infraestructura de producción? Habla con un CTO.

Meta libera Llama 2 como open source: qué cambia para los equipos de ingeniería

Qué es Llama 2 en realidad

¿Construir o comprar? La cuenta ha cambiado

Cuándo la API de OpenAI sigue siendo la opción correcta

Cuándo tiene sentido operar Llama 2

La realidad de la ingeniería

El camino que yo seguiría

Artículos Relacionados

Meta lanza Llama 3: qué cambia el open-source para tu equipo de ingeniería

(3/3) Cómo le daría a cada agente de IA una identidad responsable y privada

(2/3) El mejor mapa del problema de identidad agéntica

¿Listo para construir tu equipo de ingeniería?