← Torna a tutti gli articoli
Sfide

Meta Rilascia Llama 2 Open Source: Cosa Significa per i Team di Ingegneria

Di Marc Molas·31 luglio 2023·9 min di lettura

Il 18 luglio 2023, Meta ha rilasciato Llama 2 — una famiglia di grandi modelli linguistici disponibili sia per la ricerca che per uso commerciale. Il rilascio include modelli con 7B, 13B e 70B parametri, pre-addestrati e ottimizzati per la chat, con una licenza che permette il deployment commerciale. È la prima volta che un modello competitivo con GPT-3.5 è disponibile per chiunque voglia scaricarlo, eseguirlo e modificarlo senza pagare per token.

Per i team di ingegneria che costruiscono prodotti alimentati da IA, questo cambia fondamentalmente il panorama decisionale.

Cos'è Davvero Llama 2

Llama 2 è una collezione di modelli linguistici basati su transformer addestrati su 2 trilioni di token di dati pubblici. Il modello da 7B può funzionare su una singola GPU. Il 70B si avvicina alle prestazioni di GPT-3.5 sulla maggior parte dei benchmark.

Cosa conta per i team di ingegneria:

  • Licenza commerciale. A differenza del Llama originale, Llama 2 può essere utilizzato in prodotti commerciali.
  • Varianti ottimizzate per la chat. Non è necessario affinare da zero per i casi d'uso conversazionali.
  • Disponibile ovunque. Hugging Face, Microsoft Azure, download diretto. La barriera è il tuo hardware, non una lista d'attesa.

Build vs. Buy: Il Nuovo Calcolo

Llama 2 aggiunge una terza opzione: eseguire il proprio modello. Ecco quando ha senso ogni percorso.

Quando l'API di OpenAI rimane la scelta giusta

  • Stai prototipando. Non costruire infrastruttura per testare se una funzionalità IA aggiunge valore.
  • Hai bisogno della qualità GPT-4. Llama 2 70B rivaleggia con GPT-3.5, non GPT-4.
  • Il tuo volume è basso. Qualche centinaio di chiamate API giornaliere non costa quasi nulla.

Quando ha senso eseguire Llama 2

  • La privacy dei dati è non negoziabile. Quando chiami l'API di OpenAI, i tuoi dati passano per i loro server. Per sanità, legale, finanza o qualsiasi dominio con normative rigide, questo è un problema. Con Llama 2, i dati degli utenti non escono mai dal tuo ambiente.
  • Hai bisogno del controllo di fine-tuning. Con Llama 2, esegui il fine-tuning sui tuoi dati di dominio con pieno controllo.
  • Costo a scala. I costi API scalano linearmente. La tua infrastruttura ha costi fissi elevati ma bassi costi marginali.

La Realtà dell'Ingegneria

Eseguire il proprio LLM non è banale:

  • Infrastruttura. Llama 2 7B richiede ~14 GB di VRAM GPU.
  • Serving del modello. Strumenti come vLLM gestiscono questo, ma richiedono ingegneri che capiscano lo stack di inferenza.
  • Expertise di fine-tuning. Non è un compito da junior.
  • Monitoraggio. La valutazione degli LLM rimane un problema irrisolto.

L'implicazione per il team: Eseguire il proprio LLM richiede ingegneri ML o un significativo upskilling.

Il Percorso Pratico

  1. Inizia con l'API. Valida le funzionalità IA prima di investire nell'infrastruttura.
  2. Valuta la privacy. Se i dati possono fluire attraverso un'API di terze parti, rimani lì.
  3. Sandbox prima. Confronta la qualità con GPT-3.5 prima di impegnarti.
  4. Costruisci incrementalmente. Inizia con una singola GPU e un modello 7B quantizzato.
  5. Osserva l'ecosistema. Varianti ottimizzate e strumenti di serving appaiono ogni settimana.

La traiettoria a lungo termine è chiara: gli LLM vengono commoditizzati. Il vantaggio competitivo non sarà nell'accesso al modello — ma in come lo applichi al tuo dominio, ai tuoi dati e ai tuoi utenti.


Stai costruendo funzionalità IA e hai bisogno di ingegneri che capiscano l'intero stack? Parla con un CTO — i nostri ingegneri senior aiutano a costruire prodotti alimentati da IA senza scommettere tutto su un singolo fornitore di API.

Pronto a costruire il tuo team di ingegneria?

Parla con un partner tecnico e distribuisci sviluppatori validati da CTO in 72 ore.