← Voltar a todos os artigos
Desafios

Meta Lança Llama 2 Open Source: O que Significa para as Equipas de Engenharia

Por Marc Molas·31 de julho de 2023·9 min de leitura

A 18 de julho de 2023, a Meta lançou o Llama 2 — uma família de grandes modelos de linguagem disponíveis tanto para investigação como para uso comercial. O lançamento inclui modelos com 7B, 13B e 70B parâmetros, pré-treinados e ajustados para chat, com uma licença que permite o deployment comercial. É a primeira vez que um modelo competitivo com o GPT-3.5 está disponível para qualquer pessoa descarregar, executar e modificar sem pagar por token.

Para as equipas de engenharia que constroem produtos alimentados por IA, isto muda fundamentalmente o panorama de decisões.

O que é Realmente o Llama 2

O Llama 2 é uma coleção de modelos de linguagem baseados em transformers treinados em 2 biliões de tokens de dados públicos. O modelo de 7B pode correr numa única GPU. O de 70B aproxima-se do desempenho do GPT-3.5 na maioria dos benchmarks.

O que importa para as equipas de engenharia:

  • Licença comercial. Ao contrário do Llama original, o Llama 2 pode ser usado em produtos comerciais.
  • Variantes otimizadas para chat. Não precisas de fazer fine-tuning desde zero para casos de uso conversacionais.
  • Disponível em todo o lado. Hugging Face, Microsoft Azure, download direto. A barreira é o teu hardware, não uma lista de espera.

Build vs. Buy: O Novo Cálculo

O Llama 2 adiciona uma terceira opção: executar o teu próprio modelo. Aqui está quando cada caminho faz sentido.

Quando a API da OpenAI ainda é a escolha certa

  • Estás a prototipar. Não construas infraestrutura para testar se uma funcionalidade de IA adiciona valor.
  • Precisas da qualidade do GPT-4. O Llama 2 70B compete com o GPT-3.5, não com o GPT-4.
  • O teu volume é baixo. Algumas centenas de chamadas API diárias não custam quase nada.

Quando faz sentido executar o Llama 2

  • A privacidade dos dados é inegociável. Quando chamas a API da OpenAI, os teus dados passam pelos servidores deles. Para saúde, jurídico, finanças ou qualquer domínio com regulamentações estritas, isso é um problema.
  • Precisas de controlo de fine-tuning. Com o Llama 2, fazes fine-tuning nos teus dados de domínio com controlo total.
  • Custo a escala. Os custos de API escalam linearmente. A tua própria infraestrutura tem custos fixos elevados mas baixos custos marginais.

A Realidade da Engenharia

Executar o teu próprio LLM não é trivial:

  • Infraestrutura. O Llama 2 7B precisa de ~14 GB de VRAM GPU.
  • Serving do modelo. Ferramentas como vLLM gerem isto, mas requerem engenheiros que entendam o stack de inferência.
  • Expertise de fine-tuning. Não é uma tarefa junior.
  • Monitorização. A avaliação de LLMs continua a ser um problema não resolvido.

A implicação para a equipa: Executar o teu próprio LLM requer engenheiros de ML ou uma melhoria significativa de competências.

O Caminho Prático

  1. Começa com a API. Valida antes de investir em infraestrutura.
  2. Avalia a privacidade. Se os dados podem fluir através de uma API de terceiros, fica lá.
  3. Sandbox primeiro. Compara a qualidade com o GPT-3.5 antes de te comprometeres.
  4. Constrói incrementalmente. Começa com uma única GPU e um modelo 7B quantizado.
  5. Observa o ecossistema. Variantes otimizadas e ferramentas de serving aparecem todas as semanas.

A trajetória a longo prazo é clara: os LLMs estão a ser commoditizados. A vantagem competitiva não estará no acesso ao modelo — estará em como o aplicas ao teu domínio, aos teus dados e aos teus utilizadores.


Estás a construir funcionalidades de IA e precisas de engenheiros que entendam o stack completo? Fala com um CTO — os nossos engenheiros sénior ajudam a construir produtos alimentados por IA sem apostar tudo num único fornecedor de API.

Pronto para construir a sua equipa de engenharia?

Fale com um parceiro técnico e implemente desenvolvedores validados por CTOs em 72 horas.