Aucun gouvernement n'éteint un modèle qui tourne sur votre propre matériel
Ce week-end, nous avons vu des projets et des prototypes casser parce qu'un gouvernement d'un autre pays a décidé d'interdire l'usage d'une marchandise.
Pas un bug. Pas un déploiement raté. Pas une limite de débit que l'on peut réessayer après une pause. Une directive américaine de contrôle des exportations a ordonné d'éteindre le modèle d'IA public le plus performant du monde — pour tous les utilisateurs, partout, y compris les propres salariés du fournisseur qui avaient le mauvais passeport. Si votre produit appelait ce modèle via une API, votre produit ne s'est pas dégradé en douceur. Il a renvoyé une erreur et s'est arrêté. Dans Un régime de visas pour l'intelligence, j'ai analysé ce que cela a fait au prix du risque souverain et aux calculs des introductions en bourse. Ce billet porte sur l'autre moitié de la facture : ce que cela fait à votre façon de construire.
J'écris depuis le siège de celui qui construit, pas depuis le bureau des politiques ni depuis la table des investisseurs. Je mets en production des systèmes qui appellent ces APIs, et la leçon que je retiens de cette semaine n'est pas politique : elle est architecturale. Un modèle que vous appelez par le réseau, posé sur un serveur derrière une frontière nationale, est une dépendance dont l'interrupteur ne vous appartient pas. Et l'État vient de démontrer, horodatage à l'appui, qu'il l'actionnera. Le marché a déjà commencé à contourner cet interrupteur. La semaine même où un modèle s'est éteint par décret, Microsoft a documenté sans bruit comment en faire tourner un autre sans la moindre API dans la boucle. Et trois semaines avant tout cela, Nvidia — l'entreprise qui vend les pioches et les pelles — a réécrit ses propres états financiers pour parier que l'informatique va exactement dans cette direction.
Une API derrière une frontière a un mode de défaillance qui loge dans un bâtiment de l'État
Je tiens une courte liste des façons dont une fonctionnalité peut mourir sans que personne ne touche à son code. La panne CrowdStrike était une mauvaise mise à jour en amont : 8,5 millions de machines à terre à cause d'un fichier que personne dans votre entreprise n'a écrit. Les frais d'exécution d'Unity étaient un changement de tarif que vous n'aviez pas accepté, appliqué rétroactivement à un logiciel déjà livré. Les deux sont des défaillances de dépendance fournisseur, et les deux sont, au fond, négociables : on contourne un mauvais correctif par l'ingénierie et on négocie une facture à la baisse.
Hier a ajouté une troisième entrée avec une cause véritablement nouvelle, et celle-ci n'est pas négociable. Une directive souveraine : filtrée par nationalité, effet immédiat, sans aucun SLA qui la couvre et sans autre recours que l'obéissance. Il n'existe aucun ticket de support à ouvrir contre un ordre de contrôle des exportations. Le fournisseur lui-même n'a pas pu refuser : il n'a pu que protester en s'exécutant. Le billet sur le régime de visas a baptisé cela risque de retrait souverain, et ce qu'il faut intérioriser, c'est que c'est structurellement différent de tout risque de dépendance que nous savons déjà gérer. Vous pouvez acheter de la redondance entre régions, entre fournisseurs, entre clouds. Ce que vous ne pouvez pas acheter, c'est de la redondance face au fait que le palier de modèle le plus performant est désormais un actif stratégique contrôlé, et que le gouvernement qui en décide est celui-là même où votre fournisseur est domicilié.
Chaque mitigation vers laquelle on se tourne par réflexe — multirégion, multicloud, un second fournisseur — se termine toujours sur un modèle posé sur le serveur d'un autre, accessible seulement tant qu'une directive le permet. Il n'existe qu'une seule mitigation qui supprime l'interrupteur au lieu de s'en couvrir : faire tourner le modèle sur du matériel qui vous appartient. Il y a une semaine, cela ressemblait à un luxe qu'on ne pouvait pas se payer. C'est désormais une exigence de résilience, et l'outillage pour passer à l'acte est arrivé la semaine même que le risque.
La semaine même où un modèle a été éteint, Microsoft a documenté comment en faire tourner un autre sans aucun serveur
Voici la partie qui m'a arrêté. Phi Silica, de Microsoft, est un petit modèle de langage de 3,3 milliards de paramètres. Jusqu'à récemment, il ne tournait que sur les unités de traitement neuronal (NPU) des PC Copilot+ : un palier matériel étroit et certifié. Ce mois de juin, Microsoft a discrètement enrichi sa documentation Windows AI d'une nouvelle page : comment exécuter Phi Silica sur des GPU Nvidia RTX, sans NPU. La liste de compatibilité remonte à la série RTX 30 et au-delà, le seuil tourne autour de 8 Go de mémoire vidéo dédiée et d'un pilote de la branche 560 ou plus récent, et l'exécution passe par le Windows Copilot Runtime au-dessus de DirectML. La documentation est catégorique sur la seule chose qui compte ici : le modèle et l'inférence s'exécutent entièrement sur le matériel de l'utilisateur. Aucun appel d'API dans le cloud.
Relisez l'exigence et sortez-la du langage de fiche technique : un modèle de langage utile, pris en charge et exécuté en local vise désormais une carte graphique que des millions de gens possèdent déjà. Pas un accélérateur de centre de données sous licence d'exportation. Pas un PC IA certifié à aller acheter. La carte qui est déjà dans la tour en train de faire tourner des jeux. La capacité n'a pas baissé de prix : elle a déménagé dans un bâtiment où l'État ne peut entrer sans mandat.
Nvidia a réécrit ses propres comptes pour parier sur l'edge — trois semaines avant le retrait
Si vous voulez savoir où va vraiment la demande d'inférence, ne lisez pas les manifestes. Lisez l'entreprise qui a la vue la plus claire sur le carnet de commandes et la plus forte incitation à ne pas se tromper — et regardez ce qu'elle fait quand elle doit affirmer des choses sous serment.
Dans ses résultats du premier trimestre de l'exercice 2027, le 20 mai, Nvidia a changé la façon dont elle présente son propre métier. Les anciens segments opérationnels — «Compute & Networking» et «Graphics» — ont disparu. À leur place, deux plateformes de marché : Data Center et Edge Computing. À l'intérieur de Data Center, deux sous-marchés, Hyperscale et ACIE (AI Clouds, Industrial, Enterprise). Et à côté, pour la première fois comme plateforme de rang égal, Edge Computing — définie comme les appareils pour l'IA agentique et physique : PC, consoles de jeu, stations de travail, stations de base AI-RAN, robotique, automobile. La catégorie que Nvidia appelait «gaming» n'a pas rétréci ; elle a été absorbée dans une plateforme dont le nom parle désormais de faire tourner l'IA à la périphérie. Edge Computing a inscrit 6,4 milliards de dollars sur sa propre ligne au cours du trimestre.
Une entreprise ne restructure pas son reporting par segments sur un coup de tête. C'est un document audité, durable, coûteux à modifier, et lu de près par des gens qui poursuivent en justice quand on les induit en erreur. Quand l'entreprise qui a la meilleure vue sur l'avenir place Edge Computing à côté du centre de données comme plateforme de rang égal, elle vous dit — dans le langage le plus juridiquement contraint dont dispose une entreprise — qu'elle ne croit pas que l'avenir soit un seul modèle géant sur un seul serveur derrière la frontière d'une seule nation. Et elle l'a dit en mai, trois semaines avant le retrait de juin. Ce n'est donc pas une réaction à l'actualité. C'est le pari structurel que l'actualité est ensuite venue valider.
Soyons justes, on a déjà vu ce film. L'informatique se décentralise dès que le centre accumule un passif que la périphérie ne porte pas. Du mainframe au PC, quand le passif était le coût et l'accès. Du PC retour au cloud pendant une décennie, quand le passif était la charge opérationnelle. Aujourd'hui, le pendule repart dans l'autre sens sous le poids de la latence, de l'économie unitaire, de la confidentialité — et, depuis cette semaine, de la souveraineté, le passif le plus lourd que le centre ait jamais porté, parce que c'est le seul qu'on ne peut ni tarifer, ni assurer, ni négocier. Le balancier n'est pas idéologique. C'est une entreprise qui contourne le risque le plus cher du plateau.
L'entreprise contourne le risque ; c'est la seule chose qu'elle fait à coup sûr
Ôtez la géopolitique et voici une observation banale sur le comportement des entreprises. Une entreprise est, par-dessus presque tout, une machine à contourner le risque. Elle acceptera une latence pire, un coût initial plus élevé et davantage de travail d'ingénierie pour éliminer un risque de queue capable de mettre son produit à zéro du jour au lendemain — comme elle paie une assurance qu'elle espère ne jamais utiliser. Pendant deux ans, l'argument en faveur de l'inférence locale s'est joué sur le coût et la confidentialité, et il a perdu la plupart des débats, parce que le confort d'une API de pointe valait bien le lock-in. Cette semaine, le calcul a changé, parce que le risque de queue a cessé d'être hypothétique et s'est doté d'un horodatage.
Maintenant l'objection la plus forte, de face, parce qu'elle est juste : un modèle de 3,3 milliards de paramètres n'est pas Fable 5, et il en est loin. On ne fait pas tourner un raisonnement de niveau pointe sur un GPU de jeu, et une grande partie de ce qui rend ces outils dignes d'être payés vit dans le palier supérieur que seuls les grands modèles distants peuvent servir. Vrai, mais mal posé. Personne de sérieux ne propose de tout passer en local. Le geste consiste à étager le travail :
- Les 80 à 90 % à fort volume, sensibles à la latence et aux exigences modestes — classification, extraction, rédaction de brouillons, autocomplétion, réponses augmentées par récupération sur vos propres documents — tournent parfaitement aujourd'hui sur un modèle local de 3 à 8B. C'est aussi, et ce n'est pas un hasard, la partie de votre stack où une panne coûte le plus cher, parce qu'elle est sur le chemin critique de tout.
- Les 5 à 10 % réellement difficiles qui exigent la pointe restent sur l'API — mais derrière un repli documenté et testé, de sorte qu'un retrait vous dégrade au lieu de vous arrêter.
Et l'écart se resserre chaque trimestre ; les petits modèles continuent d'absorber des capacités qui exigeaient naguère la pointe. Le but de passer en local n'a jamais été la parité. C'est l'optionalité — et la propriété de l'interrupteur sur la partie de votre produit que vous ne pouvez pas vous permettre de voir éteinte par quelqu'un d'autre.
Une mise au point honnête de plus, car elle coupe dans l'autre sens : l'État contrôle aussi les puces. La même administration qui a retiré le modèle fait reverser à Nvidia et AMD une part de leurs revenus en Chine pour le seul privilège d'exporter. Mais il y a une vraie différence entre contrôler la prochaine vente et aller mettre la main dans un GPU qui ronronne déjà dans votre baie. La directive tombée cette semaine était distante et instantanée. Un modèle résident sur du matériel qui vous appartient déjà n'expose aucune interface distante qu'une directive puisse saisir. Les contrôles à l'export freinent votre prochain achat. Ils ne rappellent pas votre parc déjà installé.
Ce que je mettrais sur le schéma d'architecture ce trimestre
Si j'étais votre CTO, voici le travail que je financerais avant la clôture du prochain cycle de planification — concret, pas velléitaire :
- Ajoutez une ligne à la carte des dépendances. Pour chaque fonctionnalité d'IA, notez quel gouvernement peut l'éteindre, et pour lesquels de vos utilisateurs selon leur nationalité. Si cette case est vide, la conception n'est pas finie. Sa place est sur le schéma d'architecture, pas dans une note de bas de page juridique.
- Placez une interface d'inférence stable devant chaque appel de modèle, avec au moins une option à poids ouverts ou locale déjà câblée derrière. Le modèle devient interchangeable ; le harnais reste le vôtre. Le modèle est la marchandise ; le harnais autour est le rempart — et désormais, la résilience.
- Étagez vos charges selon la capacité réellement requise, puis basculez le palier à fort volume et aux exigences modestes sur un modèle local de 3 à 8B — de classe Phi sur une machine RTX, ou ses équivalents à poids ouverts. Ce seul geste sort votre chemin le plus chaud du réseau, entièrement.
- Écrivez et testez un repli pour chaque fonctionnalité de niveau pointe comme vous le feriez pour un prestataire de paiement : détectez le 4xx, dégradez vers le modèle local, alertez, continuez de servir. Puis répétez l'exercice. CrowdStrike et Unity nous ont appris à avoir un repli ; le retrait a relevé l'enjeu de vraiment le tester.
- Dimensionnez le matériel dès maintenant. Une capacité que vous possédez en propre ne peut pas être saisie par directive. Une machine RTX dans votre baie — ou déjà dans la tour de votre utilisateur — est une couverture de souveraineté qui, au passage, réduit votre facture d'inférence. L'économie des modèles de fondation parlait de ne pas surpayer pour louer de la capacité ; ceci en est la version plus tranchante du même instinct.
Ne bâtissez pas le mur porteur avec quelque chose que le vent peut emporter
Mon grand-père a tenu une entreprise de construction, et il avait une phrase qu'il répétait chaque fois qu'on lui proposait une affaire suspendue à quelque chose d'extérieur à la pièce : ne fais jamais d'affaires qui dépendent du sens du vent. Il parlait de la météo, des récoltes et des dépendances politiques. Mon grand-père savait de quoi il parlait et, cinquante ans plus tard, il me faut prendre son conseil au sérieux. Ne bâtissez pas sur une capacité qu'un gouvernement peut éteindre sur un caprice.
Cette semaine, le vent a tourné, et un modèle dont dépendaient des centaines de millions de personnes a disparu avant que la requête suivante n'arrive. Le modèle de pointe a échoué parce qu'il était posé sur un serveur derrière une frontière, et la frontière a un propriétaire. La documentation de Microsoft et le changement de reporting de Nvidia sont le même instinct exprimé deux fois, par deux des plus grandes entreprises du secteur, le même mois : l'endroit durable où faire tourner un modèle, c'est du matériel que quelqu'un possède, là où aucune directive ne peut l'atteindre. Pas parce que le local est plus rapide. Parce que le local ne peut pas être rappelé.
Si vous cartographiez votre propre chaîne d'approvisionnement en IA à la recherche de l'interrupteur que vous ne contrôlez pas, commencez par le billet qui accompagne celui-ci — Un régime de visas pour l'intelligence — puis revenez et écrivez «quel gouvernement peut éteindre ceci» sur le schéma, noir sur blanc, à côté de la fonctionnalité qu'il ferait tomber.


