← Tornar a tots els articles
Reptes

Meta Llança Llama 2 Open Source: Què Significa per als Equips d'Enginyeria

Per Marc Molas·31 de juliol del 2023·9 min de lectura

El 18 de juliol de 2023, Meta va llançar Llama 2 — una família de grans models de llenguatge disponibles tant per a investigació com per a ús comercial. El llançament inclou models amb 7B, 13B i 70B paràmetres, pre-entrenats i afinats per a xat, amb una llicència que permet el desplegament comercial. És la primera vegada que un model competitiu amb GPT-3.5 és disponible perquè qualsevol el pugui descarregar, executar i modificar sense pagar per token.

Per als equips d'enginyeria que construeixen productes impulsats per IA, això canvia fonamentalment el panorama de decisions.

Què és Realment Llama 2

Llama 2 és una col·lecció de models de llenguatge basats en transformers entrenats en 2 bilions de tokens de dades públiques. El model de 7B pot executar-se en una sola GPU. El de 70B s'acosta al rendiment de GPT-3.5 en la majoria de benchmarks.

El que importa per als equips d'enginyeria:

  • Llicència comercial. A diferència del Llama original, Llama 2 pot fer-se servir en productes comercials.
  • Variants optimitzades per a xat. No cal afinar des de zero per a casos d'ús conversacionals.
  • Disponible a tot arreu. Hugging Face, Microsoft Azure, descàrrega directa. La barrera és el teu maquinari, no una llista d'espera.

Build vs. Buy: El Nou Càlcul

Llama 2 afegeix una tercera opció: executar el teu propi model. Aquí s'indica quan té sentit cada camí.

Quan la API d'OpenAI continua sent la correcta

  • Estàs fent prototips. No construeixis infraestructura per provar si una funcionalitat d'IA afegeix valor.
  • Necessites qualitat GPT-4. Llama 2 70B compet amb GPT-3.5, no amb GPT-4.
  • El teu volum és baix. Unes centenes de crides API diàries gairebé no costen res.

Quan té sentit executar Llama 2

  • La privadesa de les dades és no negociable. Quan crides l'API d'OpenAI, les teves dades passen pels seus servidors. Per a sanitat, jurídic, finances o qualsevol domini amb regulacions estrictes, això és un problema.
  • Necessites control d'afinament fi. Amb Llama 2, afines amb les teves dades de domini amb control total.
  • Cost a escala. Els costos de l'API escalen linealment. La teva pròpia infraestructura té costos fixos elevats però baixos costos marginals.

La Realitat de l'Enginyeria

Executar el teu propi LLM no és trivial:

  • Infraestructura. Llama 2 7B necessita ~14 GB de VRAM de GPU.
  • Servei del model. Eines com vLLM gestionen això, però requereixen enginyers que entenguin l'stack d'inferència.
  • Expertesa d'afinament fi. No és una tasca per a juniors.
  • Monitorització. L'avaluació de LLMs segueix sent un problema no resolt.

La implicació per a l'equip: Executar el teu propi LLM requereix enginyers de ML o una millora significativa de competències.

El Camí Pràctic

  1. Comença amb l'API. Valida les funcionalitats d'IA abans d'invertir en infraestructura.
  2. Avalua la privadesa. Si les dades poden fluir a través d'una API de tercers, queda't allà.
  3. Sandbox primer. Compara la qualitat amb GPT-3.5 abans de comprometre't.
  4. Construeix incrementalment. Comença amb una sola GPU i un model 7B quantitzat.
  5. Observa l'ecosistema. Variants afinades i eines de servei apareixen cada setmana.

La trajectòria a llarg termini és clara: els LLMs s'estan commodititzant. L'avantatge competitiu no estarà en l'accés al model — sinó en com l'apliques al teu domini, les teves dades i els teus usuaris.


Construint funcionalitats d'IA i necessites enginyers que entenguin l'stack complet? Parla amb un CTO — els nostres enginyers sènior ajuden a construir productes impulsats per IA sense apostar-ho tot a un sol proveïdor d'API.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.