Meta Lança Llama 2 Open Source: O que Significa para as Equipas de Engenharia
A 18 de julho de 2023, a Meta lançou o Llama 2 — uma família de grandes modelos de linguagem disponíveis tanto para investigação como para uso comercial. O lançamento inclui modelos com 7B, 13B e 70B parâmetros, pré-treinados e ajustados para chat, com uma licença que permite o deployment comercial. É a primeira vez que um modelo competitivo com o GPT-3.5 está disponível para qualquer pessoa descarregar, executar e modificar sem pagar por token.
Para as equipas de engenharia que constroem produtos alimentados por IA, isto muda fundamentalmente o panorama de decisões.
O que é Realmente o Llama 2
O Llama 2 é uma coleção de modelos de linguagem baseados em transformers treinados em 2 biliões de tokens de dados públicos. O modelo de 7B pode correr numa única GPU. O de 70B aproxima-se do desempenho do GPT-3.5 na maioria dos benchmarks.
O que importa para as equipas de engenharia:
- Licença comercial. Ao contrário do Llama original, o Llama 2 pode ser usado em produtos comerciais.
- Variantes otimizadas para chat. Não precisas de fazer fine-tuning desde zero para casos de uso conversacionais.
- Disponível em todo o lado. Hugging Face, Microsoft Azure, download direto. A barreira é o teu hardware, não uma lista de espera.
Build vs. Buy: O Novo Cálculo
O Llama 2 adiciona uma terceira opção: executar o teu próprio modelo. Aqui está quando cada caminho faz sentido.
Quando a API da OpenAI ainda é a escolha certa
- Estás a prototipar. Não construas infraestrutura para testar se uma funcionalidade de IA adiciona valor.
- Precisas da qualidade do GPT-4. O Llama 2 70B compete com o GPT-3.5, não com o GPT-4.
- O teu volume é baixo. Algumas centenas de chamadas API diárias não custam quase nada.
Quando faz sentido executar o Llama 2
- A privacidade dos dados é inegociável. Quando chamas a API da OpenAI, os teus dados passam pelos servidores deles. Para saúde, jurídico, finanças ou qualquer domínio com regulamentações estritas, isso é um problema.
- Precisas de controlo de fine-tuning. Com o Llama 2, fazes fine-tuning nos teus dados de domínio com controlo total.
- Custo a escala. Os custos de API escalam linearmente. A tua própria infraestrutura tem custos fixos elevados mas baixos custos marginais.
A Realidade da Engenharia
Executar o teu próprio LLM não é trivial:
- Infraestrutura. O Llama 2 7B precisa de ~14 GB de VRAM GPU.
- Serving do modelo. Ferramentas como vLLM gerem isto, mas requerem engenheiros que entendam o stack de inferência.
- Expertise de fine-tuning. Não é uma tarefa junior.
- Monitorização. A avaliação de LLMs continua a ser um problema não resolvido.
A implicação para a equipa: Executar o teu próprio LLM requer engenheiros de ML ou uma melhoria significativa de competências.
O Caminho Prático
- Começa com a API. Valida antes de investir em infraestrutura.
- Avalia a privacidade. Se os dados podem fluir através de uma API de terceiros, fica lá.
- Sandbox primeiro. Compara a qualidade com o GPT-3.5 antes de te comprometeres.
- Constrói incrementalmente. Começa com uma única GPU e um modelo 7B quantizado.
- Observa o ecossistema. Variantes otimizadas e ferramentas de serving aparecem todas as semanas.
A trajetória a longo prazo é clara: os LLMs estão a ser commoditizados. A vantagem competitiva não estará no acesso ao modelo — estará em como o aplicas ao teu domínio, aos teus dados e aos teus utilizadores.
Estás a construir funcionalidades de IA e precisas de engenheiros que entendam o stack completo? Fala com um CTO — os nossos engenheiros sénior ajudam a construir produtos alimentados por IA sem apostar tudo num único fornecedor de API.


