Meta allibera Llama 2 com a codi obert: què significa per als equips d'enginyeria
El 18 de juliol de 2023, Meta va publicar Llama 2 — una família de grans models de llenguatge disponible tant per a recerca com per a ús comercial. El llançament inclou models de 7B, 13B i 70B paràmetres, preentrenats i afinats per a xat, amb una llicència que en permet el desplegament comercial. És el primer cop que un model competitiu amb GPT-3.5 es pot descarregar, executar i modificar sense pagar per token.
Per als equips d'enginyeria que construeixen productes amb IA, això canvia de soca-rel el mapa de decisions. La pregunta que sento dels fundadors tècnics ja no és «podem accedir a un bon LLM?», sinó «hauríem d'executar-ne un de propi?». La meva resposta: probablement encara no, però per primera vegada és una pregunta de debò, i així és com jo m'ho plantejaria.
Què és Llama 2, realment
Llama 2 és una col·lecció de models de llenguatge basats en transformers, entrenats amb 2 bilions de tokens de dades públiques. El model de 7B pot funcionar en una sola GPU. El de 70B demana infraestructura seriosa, però s'acosta al rendiment de GPT-3.5 en la majoria de benchmarks.
El que importa per als equips d'enginyeria:
- Llicència comercial. A diferència del Llama original, Llama 2 es pot fer servir en productes comercials. Les restriccions només afecten aplicacions amb més de 700 milions d'usuaris actius mensuals: per a una startup, la llicència és oberta a efectes pràctics.
- Variants optimitzades per a xat. Meta ha publicat tant els models base com models de xat afinats amb RLHF. No cal afinar des de zero per a casos d'ús conversacionals.
- Disponible pertot arreu. Hugging Face, Microsoft Azure, descàrrega directa. La barrera és el teu maquinari, no una llista d'espera.
Construir o comprar: el càlcul ha canviat
Fins ara, la decisió d'IA per a la majoria de startups era senzilla: fer servir l'API d'OpenAI. GPT-3.5 i GPT-4 són bons, l'API és fàcil, i executar models propis era impracticable sense enginyers de ML dedicats i infraestructura de GPU.
Llama 2 hi afegeix una tercera opció: executar el teu propi model. Vegem quan té sentit cada camí.
Quan l'API d'OpenAI continua sent la millor opció
- Estàs fent prototips. No muntis infraestructura per comprovar si una funcionalitat d'IA aporta valor. Crida l'API, valida, itera.
- Necessites la qualitat de GPT-4. Llama 2 70B competeix amb GPT-3.5, no amb GPT-4. Si el teu cas demana el raonament de GPT-4, l'API continua sent la teva millor opció.
- El teu volum és baix. Uns quants centenars de crides diàries a l'API no costen gairebé res. El punt d'equilibri d'una infraestructura pròpia comença als milers de peticions diàries.
Quan té sentit executar Llama 2
- La privadesa de les dades no és negociable. Aquest és el motor principal. Quan crides l'API d'OpenAI, les teves dades passen pels seus servidors. Per a salut, dret, finances o qualsevol àmbit amb regulació estricta, això és un problema. Amb Llama 2, les dades dels usuaris no surten mai del teu entorn. Per a les empreses europees que han de complir el RGPD, en molts casos d'ús això és un requisit normatiu.
- Necessites control sobre l'afinament. L'afinament que ofereix OpenAI és limitat. Amb Llama 2, afines amb les dades del teu domini i amb control total. Terminologia mèdica, documents legals, argot del sector: un model obert et dona molta més flexibilitat.
- Cost a escala. Els costos d'API escalen linealment. La infraestructura pròpia té costos fixos alts però costos marginals baixos. Una sola GPU A100 executant Llama 2 7B absorbeix un volum considerable per una quota mensual fixa, en lloc de pagar per token.
La realitat de l'enginyeria
Executar el teu propi LLM no és trivial. El màrqueting fa que sembli que descarregues un model i ja ets a producció. La realitat:
Infraestructura. Llama 2 7B necessita uns 14 GB de VRAM de GPU. El de 70B necessita diverses GPU. Les instàncies A100 al núvol costen entre 2 i 4 dòlars l'hora. Les versions quantitzades del model redueixen els requisits a canvi d'una petita pèrdua de qualitat.
Servei del model. Necessites una capa que gestioni peticions concurrents, administri la memòria de la GPU i agrupi les crides de manera eficient. Eines com vLLM o text-generation-inference de Hugging Face ho resolen, però demanen enginyers que entenguin l'stack d'inferència.
Experiència en afinament. Bucles d'entrenament, preparació de dades, mètriques d'avaluació, ajust d'hiperparàmetres: això no és feina de júnior. Demana experiència en enginyeria de ML.
Monitoratge. L'avaluació dels LLM encara és un problema sense resoldre. Necessites pipelines d'avaluació, circuits de retroalimentació dels usuaris i monitoratge de qualitat. Sense això, voles a cegues.
La implicació per a l'equip: executar el teu propi LLM demana enginyers de ML o un salt de competències important. Per a una startup de 5 a 10 persones, és una inversió real.
El camí que jo seguiria
- Comença amb l'API. Valida les funcionalitats d'IA abans d'invertir en infraestructura.
- Avalua la privadesa. Si les dades poden passar per una API de tercers, queda-t'hi. Si no poden, posa Llama 2 al teu full de ruta.
- Primer, un sandbox. Passa els teus casos d'ús per Llama 2 i compara'n la qualitat amb GPT-3.5 abans de comprometre't amb infraestructura de producció.
- Construeix de manera incremental. Comença amb una sola GPU i un model 7B quantitzat per a una sola funcionalitat. A partir d'aquí, creix.
- Vigila l'ecosistema. Cada setmana apareixen variants afinades, tècniques de quantització i eines de servei. El que avui és difícil serà més fàcil d'aquí a sis mesos.
La trajectòria a llarg termini és clara: els LLM s'estan convertint en una commodity. L'avantatge competitiu no serà l'accés al model, sinó com l'apliques al teu domini, a les teves dades i als teus usuaris. Els equips que entenguin el desplegament, l'afinament i l'avaluació construiran millors productes que els qui tractin la IA com una crida a una API de caixa negra.
A Conectia veiem una demanda creixent de startups que necessiten enginyers capaços de cobrir la distància entre un model descarregat i una funcionalitat en producció. Aquesta distància — i no el model — és on viu ara el valor d'enginyeria.
Estàs construint funcionalitats d'IA i necessites enginyers que entenguin tot l'stack, del servei del model a la infraestructura de producció? Parla amb un CTO.


