Meta Llança Llama 2 Open Source: Què Significa per als Equips d'Enginyeria
El 18 de juliol de 2023, Meta va llançar Llama 2 — una família de grans models de llenguatge disponibles tant per a investigació com per a ús comercial. El llançament inclou models amb 7B, 13B i 70B paràmetres, pre-entrenats i afinats per a xat, amb una llicència que permet el desplegament comercial. És la primera vegada que un model competitiu amb GPT-3.5 és disponible perquè qualsevol el pugui descarregar, executar i modificar sense pagar per token.
Per als equips d'enginyeria que construeixen productes impulsats per IA, això canvia fonamentalment el panorama de decisions.
Què és Realment Llama 2
Llama 2 és una col·lecció de models de llenguatge basats en transformers entrenats en 2 bilions de tokens de dades públiques. El model de 7B pot executar-se en una sola GPU. El de 70B s'acosta al rendiment de GPT-3.5 en la majoria de benchmarks.
El que importa per als equips d'enginyeria:
- Llicència comercial. A diferència del Llama original, Llama 2 pot fer-se servir en productes comercials.
- Variants optimitzades per a xat. No cal afinar des de zero per a casos d'ús conversacionals.
- Disponible a tot arreu. Hugging Face, Microsoft Azure, descàrrega directa. La barrera és el teu maquinari, no una llista d'espera.
Build vs. Buy: El Nou Càlcul
Llama 2 afegeix una tercera opció: executar el teu propi model. Aquí s'indica quan té sentit cada camí.
Quan la API d'OpenAI continua sent la correcta
- Estàs fent prototips. No construeixis infraestructura per provar si una funcionalitat d'IA afegeix valor.
- Necessites qualitat GPT-4. Llama 2 70B compet amb GPT-3.5, no amb GPT-4.
- El teu volum és baix. Unes centenes de crides API diàries gairebé no costen res.
Quan té sentit executar Llama 2
- La privadesa de les dades és no negociable. Quan crides l'API d'OpenAI, les teves dades passen pels seus servidors. Per a sanitat, jurídic, finances o qualsevol domini amb regulacions estrictes, això és un problema.
- Necessites control d'afinament fi. Amb Llama 2, afines amb les teves dades de domini amb control total.
- Cost a escala. Els costos de l'API escalen linealment. La teva pròpia infraestructura té costos fixos elevats però baixos costos marginals.
La Realitat de l'Enginyeria
Executar el teu propi LLM no és trivial:
- Infraestructura. Llama 2 7B necessita ~14 GB de VRAM de GPU.
- Servei del model. Eines com vLLM gestionen això, però requereixen enginyers que entenguin l'stack d'inferència.
- Expertesa d'afinament fi. No és una tasca per a juniors.
- Monitorització. L'avaluació de LLMs segueix sent un problema no resolt.
La implicació per a l'equip: Executar el teu propi LLM requereix enginyers de ML o una millora significativa de competències.
El Camí Pràctic
- Comença amb l'API. Valida les funcionalitats d'IA abans d'invertir en infraestructura.
- Avalua la privadesa. Si les dades poden fluir a través d'una API de tercers, queda't allà.
- Sandbox primer. Compara la qualitat amb GPT-3.5 abans de comprometre't.
- Construeix incrementalment. Comença amb una sola GPU i un model 7B quantitzat.
- Observa l'ecosistema. Variants afinades i eines de servei apareixen cada setmana.
La trajectòria a llarg termini és clara: els LLMs s'estan commodititzant. L'avantatge competitiu no estarà en l'accés al model — sinó en com l'apliques al teu domini, les teves dades i els teus usuaris.
Construint funcionalitats d'IA i necessites enginyers que entenguin l'stack complet? Parla amb un CTO — els nostres enginyers sènior ajuden a construir productes impulsats per IA sense apostar-ho tot a un sol proveïdor d'API.


