← Retour aux articles
Défis

Meta Lance Llama 2 en Open Source : Ce que Cela Signifie pour les Équipes d'Ingénierie

Par Marc Molas·31 juillet 2023·9 min de lecture

Le 18 juillet 2023, Meta a lancé Llama 2 — une famille de grands modèles de langage disponibles pour la recherche et l'utilisation commerciale. Le lancement inclut des modèles à 7B, 13B et 70B paramètres, pré-entraînés et affinés pour le chat, avec une licence permettant le déploiement commercial. C'est la première fois qu'un modèle compétitif avec GPT-3.5 est disponible pour que n'importe qui puisse le télécharger, exécuter et modifier sans payer par token.

Pour les équipes d'ingénierie qui construisent des produits alimentés par l'IA, cela change fondamentalement le paysage décisionnel.

Ce qu'est Vraiment Llama 2

Llama 2 est une collection de modèles de langage basés sur des transformers entraînés sur 2 billions de tokens de données publiques. Le modèle 7B peut fonctionner sur un seul GPU. Le 70B se rapproche des performances de GPT-3.5 sur la plupart des benchmarks.

Ce qui compte pour les équipes d'ingénierie :

  • Licence commerciale. Contrairement au Llama original, Llama 2 peut être utilisé dans des produits commerciaux.
  • Variantes optimisées pour le chat. Pas besoin d'affiner depuis zéro pour les cas d'utilisation conversationnels.
  • Disponible partout. Hugging Face, Microsoft Azure, téléchargement direct. La barrière est votre matériel, pas une liste d'attente.

Build vs. Buy : Le Nouveau Calcul

Llama 2 ajoute une troisième option : exécuter votre propre modèle. Voici quand chaque chemin est judicieux.

Quand l'API OpenAI reste le bon choix

  • Vous prototypez. Ne construisez pas d'infrastructure pour tester si une fonctionnalité IA ajoute de la valeur.
  • Vous avez besoin de la qualité GPT-4. Llama 2 70B rivalise avec GPT-3.5, pas GPT-4.
  • Votre volume est faible. Quelques centaines d'appels API quotidiens ne coûtent presque rien.

Quand exécuter Llama 2 est judicieux

  • La confidentialité des données est non négociable. Quand vous appelez l'API OpenAI, vos données passent par leurs serveurs. Pour la santé, le juridique, la finance ou tout domaine avec des réglementations strictes, c'est un problème. Pour les entreprises européennes naviguant dans le RGPD, c'est une exigence de conformité.
  • Vous avez besoin du contrôle d'affinage. Avec Llama 2, vous affinez sur vos données de domaine avec contrôle total.
  • Coût à l'échelle. Les coûts d'API évoluent linéairement. Votre propre infrastructure a des coûts fixes élevés mais de faibles coûts marginaux.

La Réalité de l'Ingénierie

Exécuter votre propre LLM n'est pas trivial :

  • Infrastructure. Llama 2 7B nécessite ~14 Go de VRAM GPU.
  • Service du modèle. Vous avez besoin d'une couche gérant les requêtes concurrentes et la mémoire GPU.
  • Expertise d'affinage. Boucles d'entraînement, préparation des données — ce n'est pas une tâche junior.
  • Surveillance. L'évaluation des LLM reste un problème non résolu.

L'implication pour l'équipe : Exécuter votre propre LLM nécessite des ingénieurs ML ou une montée en compétences significative.

Le Chemin Pratique

  1. Commencez avec l'API. Validez avant d'investir.
  2. Évaluez la confidentialité. Si les données peuvent transiter par une API tierce, restez là.
  3. Sandbox d'abord. Comparez la qualité avec GPT-3.5 avant de vous engager.
  4. Construisez de façon incrémentale. Commencez avec un GPU et un modèle 7B quantisé.
  5. Surveillez l'écosystème. Les variantes affinées et les outils de service apparaissent chaque semaine.

La trajectoire à long terme est claire : les LLM sont en train d'être commoditisés. L'avantage concurrentiel ne viendra pas de l'accès au modèle — mais de la façon dont vous l'appliquez à votre domaine, vos données et vos utilisateurs.


Vous construisez des fonctionnalités IA et avez besoin d'ingénieurs qui comprennent l'ensemble de la stack ? Parlez à un CTO — nos ingénieurs senior aident à construire des produits alimentés par l'IA sans tout miser sur un seul fournisseur d'API.

Articles Connexes

Prêt à construire votre équipe d'ingénierie ?

Parlez à un partenaire technique et déployez des développeurs validés par des CTOs en 72 heures.