Desafios

Meta Lança Llama 2 Open Source: O que Significa para as Equipas de Engenharia

Por Marc Molas·31 de julho de 2023·9 min de leitura

A 18 de julho de 2023, a Meta lançou o Llama 2 — uma família de grandes modelos de linguagem disponíveis tanto para investigação como para uso comercial. O lançamento inclui modelos com 7B, 13B e 70B parâmetros, pré-treinados e ajustados para chat, com uma licença que permite o deployment comercial. É a primeira vez que um modelo competitivo com o GPT-3.5 está disponível para qualquer pessoa descarregar, executar e modificar sem pagar por token.

Para as equipas de engenharia que constroem produtos alimentados por IA, isto muda fundamentalmente o panorama de decisões.

O que é Realmente o Llama 2

O Llama 2 é uma coleção de modelos de linguagem baseados em transformers treinados em 2 biliões de tokens de dados públicos. O modelo de 7B pode correr numa única GPU. O de 70B aproxima-se do desempenho do GPT-3.5 na maioria dos benchmarks.

O que importa para as equipas de engenharia:

Licença comercial. Ao contrário do Llama original, o Llama 2 pode ser usado em produtos comerciais.
Variantes otimizadas para chat. Não precisas de fazer fine-tuning desde zero para casos de uso conversacionais.
Disponível em todo o lado. Hugging Face, Microsoft Azure, download direto. A barreira é o teu hardware, não uma lista de espera.

Build vs. Buy: O Novo Cálculo

O Llama 2 adiciona uma terceira opção: executar o teu próprio modelo. Aqui está quando cada caminho faz sentido.

Quando a API da OpenAI ainda é a escolha certa

Estás a prototipar. Não construas infraestrutura para testar se uma funcionalidade de IA adiciona valor.
Precisas da qualidade do GPT-4. O Llama 2 70B compete com o GPT-3.5, não com o GPT-4.
O teu volume é baixo. Algumas centenas de chamadas API diárias não custam quase nada.

Quando faz sentido executar o Llama 2

A privacidade dos dados é inegociável. Quando chamas a API da OpenAI, os teus dados passam pelos servidores deles. Para saúde, jurídico, finanças ou qualquer domínio com regulamentações estritas, isso é um problema.
Precisas de controlo de fine-tuning. Com o Llama 2, fazes fine-tuning nos teus dados de domínio com controlo total.
Custo a escala. Os custos de API escalam linearmente. A tua própria infraestrutura tem custos fixos elevados mas baixos custos marginais.

A Realidade da Engenharia

Executar o teu próprio LLM não é trivial:

Infraestrutura. O Llama 2 7B precisa de ~14 GB de VRAM GPU.
Serving do modelo. Ferramentas como vLLM gerem isto, mas requerem engenheiros que entendam o stack de inferência.
Expertise de fine-tuning. Não é uma tarefa junior.
Monitorização. A avaliação de LLMs continua a ser um problema não resolvido.

A implicação para a equipa: Executar o teu próprio LLM requer engenheiros de ML ou uma melhoria significativa de competências.

O Caminho Prático

Começa com a API. Valida antes de investir em infraestrutura.
Avalia a privacidade. Se os dados podem fluir através de uma API de terceiros, fica lá.
Sandbox primeiro. Compara a qualidade com o GPT-3.5 antes de te comprometeres.
Constrói incrementalmente. Começa com uma única GPU e um modelo 7B quantizado.
Observa o ecossistema. Variantes otimizadas e ferramentas de serving aparecem todas as semanas.

A trajetória a longo prazo é clara: os LLMs estão a ser commoditizados. A vantagem competitiva não estará no acesso ao modelo — estará em como o aplicas ao teu domínio, aos teus dados e aos teus utilizadores.

Estás a construir funcionalidades de IA e precisas de engenheiros que entendam o stack completo? Fala com um CTO — os nossos engenheiros sénior ajudam a construir produtos alimentados por IA sem apostar tudo num único fornecedor de API.

Meta Lança Llama 2 Open Source: O que Significa para as Equipas de Engenharia

O que é Realmente o Llama 2

Build vs. Buy: O Novo Cálculo

Quando a API da OpenAI ainda é a escolha certa

Quando faz sentido executar o Llama 2

A Realidade da Engenharia

O Caminho Prático

Artigos Relacionados

Meta Lanca Llama 3: O Open-Source Muda o que seu Time de Engenharia Precisa Saber

Deixa o LLM falar, não tocar: a arquitetura de ciclo fechado que sobrevive em produção (3/3)

A Região Operativa Soberana Viável: porque o teu roadmap de IA bate num muro de energia–carbono–água (2/3)

Pronto para construir a sua equipa de engenharia?