Défis

La mort lente du scaling : pourquoi plus grand n'est plus toujours mieux

Par Marc Molas·26 mai 2026·8 min de lecture

Sara Hooker — anciennement à la tête de Cohere For AI, l'une des rares chercheuses à avoir un pied dans l'industrie et l'autre dans le monde académique — vient de publier un essai intitulé On the slow death of scaling. Elle s'attaque à une question que, pendant la majeure partie de la dernière décennie, on a traitée comme déjà tranchée : plus grand, est-ce toujours mieux ?

La réponse honnête, dit-elle, c'est non. Et les conséquences d'avoir supposé le contraire sont plus lourdes que la plupart des équipes — et la plupart des régulateurs — ne commencent à s'en rendre compte. C'est le premier billet d'une série en trois parties qui décortique l'essai et ce qu'il signifie pour quiconque livre ou gouverne de l'IA en 2026.

La décennie qui a fait de « scale » un synonyme de « progrès »

L'histoire que raconte Hooker commence par un accident. En 1945, Percy Spencer remarque qu'une barre chocolatée fond dans sa poche à proximité d'un tube magnétron radar, et on a hérité du four à micro-ondes. Dans les années 2000, les GPU — conçus dans les années 70 pour faire tourner Mario — ont été détournés pour faire de la multiplication matricielle, et on a hérité du deep learning. Le papier Google de 2012 a utilisé 16 000 cœurs CPU pour classer des chats ; un an plus tard, la même tâche était résolue avec deux cœurs CPU et quatre GPU.

Ce moment a déclenché une ruée vers le compute et, avec elle, une culture. La vieille blague de Ken Thompson — « en cas de doute, force brute » — a été promue en bitter lesson de Rich Sutton : jette plus de compute sur le problème, et l'ingénierie de connaissance humaine continue de perdre. De 2017 à 2023, les coûts d'entraînement ont gagné environ quatre ordres de grandeur. GNMT a coûté ~100 K$ à entraîner ; Gemini Ultra a franchi les 100 M$. La « formule » est devenue : scaler la taille du modèle et les données d'entraînement, et recommencer.

Les implications capitalistiques ont été énormes. La recherche frontière a migré hors du monde académique vers une poignée de labs industriels. Hooker cite la géographie sans détour : la production de modèles ML notables est aujourd'hui concentrée aux États-Unis et en Chine à un point qui aurait été impensable en 2010. La culture de publication ouverte s'est effondrée en parallèle. Les labs industriels ont arrêté de publier non pas parce que la science est devenue plus dure à coucher sur papier, mais parce que le moat est passé des algorithmes au capex.

Les preuves que l'hypothèse craque

C'est là que l'essai devient inconfortable pour tous ceux dont la roadmap dépend du dogme « plus grand, c'est mieux ».

Hooker trace l'Open LLM Leaderboard sur deux ans. La tendance n'a rien de subtil :

Falcon 180B — autrefois à la frontière — est aisément battu par Llama-3 8B, Command R 35B et Gemma 2 27B.
Aya 23 8B et Aya Expanse 8B battent BLOOM 176B malgré 4,5 % des paramètres.
Les meilleurs modèles sous 13B battent régulièrement des modèles bien plus gros soumis sur la même fenêtre.

Ce ne sont pas des cas marginaux. C'est la tendance dominante sur un benchmark public, sur plusieurs années. Si « plus grand » impliquait encore « meilleur » de manière fiable et significative, rien de tout cela n'aurait lieu. Ce que l'on observe, c'est que le taux de rendement d'une unité de compute est en train de basculer, et ce basculement est porté par autre chose que le nombre brut de paramètres — qualité des données, technique algorithmique, choix architecturaux. On en parlera dans la Partie 2.

Pourquoi les scaling laws ont été survendues

La justification intellectuelle dominante de la trajectoire « plus grand, c'est mieux » a été celle des scaling laws — Kaplan et al. (2020), Chinchilla, Hernandez et al. — qui cherchent à prédire la décroissance de la loss à mesure que compute, données et paramètres augmentent. Elles sont devenues, selon les mots de Hooker, « une expression fourre-tout pour justifier tout, depuis les investissements massifs dans les startups IA jusqu'aux décisions de politique publique sur les seuils de compute. »

Mais l'essai catalogue, références à l'appui, une série de réserves qui devraient mettre mal à l'aise quiconque utilise les scaling laws pour autre chose qu'un seul run d'entraînement planifié :

Elles prédisent surtout la test loss en pré-entraînement, pas les capacités downstream — et la relation entre les deux est « trouble ou incohérente ». C'est la discussion sur les propriétés émergentes, que Hooker reformule avec ironie : les propriétés émergentes ne sont que notre aveu que les scaling laws n'ont pas prédit ce qui en est sorti.
Elles ont été difficiles à répliquer sous des hypothèses légèrement différentes sur la distribution des données (Besiroglu et al. 2024 sur Chinchilla ; Anwar et al. 2024).
Beaucoup de « lois de puissance » reposent sur moins de 100 points de données (Ruan et al. 2024). Dans n'importe quel autre champ, ça ne passerait pas la relecture.
Certaines capacités downstream scalent de manière erratique ou ne suivent pas de loi de puissance du tout (Srivastava et al. 2023 ; Caballero et al. 2023).
Elles tiennent le mieux quand architecture, optimiseur et qualité des données restent constants — exactement les conditions les moins susceptibles de tenir sur un horizon de planification pluriannuel.

La lecture honnête, c'est que les scaling laws sont utiles pour planifier le prochain run d'entraînement dans un régime connu, et pas beaucoup plus. Les traiter comme une prédiction porteuse sur la trajectoire des capacités IA à plusieurs années a toujours relevé de l'extrapolation hasardeuse.

Le problème de politique publique que ça crée

C'est ici que l'essai devient porteur pour tous ceux qui n'entraînent pas eux-mêmes des modèles frontière — soit la quasi-totalité d'entre nous. La régulation a été bâtie par-dessus l'hypothèse plus-grand-c'est-mieux. L'AI Act européen, les décrets américains, et la vague de formulations à base de seuils de compute dans la législation 2024–25 partagent une prémisse structurelle : que le compute d'entraînement (FLOPs à l'entraînement, ou par proxy, accès au matériel) est le meilleur indicateur de capacité et donc de risque.

Si Hooker a raison — et les preuves empiriques qu'elle présente sont difficiles à balayer — alors les seuils de compute :

Manquent entièrement les modèles petits mais capables. Un modèle 8B qui bat un 180B sur des capacités nocives ne déclenchera aucun seuil basé sur les FLOPs.
Sur-régulent des modèles grands mais sous-performants, créant un coût de conformité pour une capacité qui n'existe pas.
Vieilliront mal à mesure que le compute en inférence, les systèmes agentiques et les techniques sans gradient (Partie 3) déplacent là où la capacité s'accumule réellement.
Concentrent davantage le pouvoir en inscrivant les hypothèses d'échelle de l'oligopole actuel dans la loi.

Les « responsible scaling policies » d'Anthropic et OpenAI héritent de la même hypothèse intégrée : que le scaling va continuer et que la seule question ouverte est comment scaler de manière responsable. Le défi posé par Hooker est plus inconfortable : et si le scaling n'était pas le seul — ni même le plus intéressant — axe de progrès ?

Ce que ça signifie si vous livrez du produit, pas de la politique publique

Les implications cascadent vers le bas. Si vous êtes CTO, VP Eng ou fondateur technique en train de choisir des modèles pour la production :

Arrêtez d'indexer sur le nombre de paramètres. Ça a toujours été un proxy bruité, et c'est devenu activement trompeur. Les scores des leaderboards ouverts, les évaluations spécifiques à la tâche et votre propre mix de trafic de production vous en disent plus que des B de paramètres.
Par défaut, prenez « le plus petit modèle qui passe la barre d'éval », pas « le plus gros modèle que le budget autorise ». Le coût d'inférence se compose. La réalité 8B-bat-180B veut dire que vous pouvez généralement vous en sortir avec beaucoup moins que ce que le marketing vendeur sous-entend.
Traitez avec suspicion toute roadmap vendeur dont la proposition de valeur est « on sera plus grand l'an prochain ». Certains des gains de capacités les plus importants des 24 derniers mois — RAG, tool use, chain-of-thought, distillation — n'ont demandé aucun scaling.
Auditez tout document de planification interne qui utilise les scaling laws comme prévision. Ce sont de mauvais prédicteurs hors de régimes d'entraînement étroits. Si une roadmap à 3 ans dépend de l'extrapolation de l'une d'elles, c'est un risque, pas un plan.

L'hypothèse plus-grand-c'est-mieux a été utile pendant une décennie. Elle est en train de mourir, lentement et avec grâce. La question intéressante, c'est ce qui vient après — et c'est là que ça redevient excitant. La créativité d'ingénierie a été étouffée par le capex pendant des années. Elle est sur le point de compter à nouveau.

Suite de la série : Ce qui détermine vraiment le taux de rendement du compute — rendements décroissants sur les paramètres, le rôle de la qualité des données, les améliorations algorithmiques qui font le vrai travail, et pourquoi l'architecture est le plafond dont personne ne parle.

La mort lente du scaling : pourquoi plus grand n'est plus toujours mieux

La décennie qui a fait de « scale » un synonyme de « progrès »

Les preuves que l'hypothèse craque

Pourquoi les scaling laws ont été survendues

Le problème de politique publique que ça crée

Ce que ça signifie si vous livrez du produit, pas de la politique publique

Articles Connexes

Ce qui détermine vraiment le taux de rendement du compute

Au-delà du scaling : les nouveaux espaces d'optimisation pour le progrès IA

Les tokens ne sont pas une monnaie. Ce sont des lignes de code avec une facture jointe.

Prêt à construire votre équipe d'ingénierie ?