← Tornar a tots els articles
strategy

Un model que corre en el teu propi hardware no l'apaga cap govern

Per Marc Molas·14 de juny del 2026·11 min de lectura

Aquest cap de setmana hem vist projectes i prototips trencar-se perquè un govern d'un altre país va decidir vetar l'ús d'una mercaderia.

No és un bug. No és un desplegament fallit. No és un límit de peticions que puguis reintentar després d'una espera. Una directiva nord-americana de control d'exportacions va ordenar apagar el model d'IA públic més capaç del món — per a tots els usuaris, a tot arreu, inclosos els mateixos empleats del proveïdor que tenien el passaport equivocat. Si el teu producte cridava aquell model per una API, el teu producte no es va degradar amb elegància. Va retornar un error i es va aturar. A Un règim de visats per a la intel·ligència vaig analitzar què li va fer això al preu del risc sobirà i als números de les sortides a borsa. Aquest article va sobre l'altra meitat de la factura: què li fa a com construeixes.

Escric això des del seient de qui construeix, no des del despatx de polítiques ni des de la taula dels inversors. Poso en producció sistemes que criden aquestes APIs, i la lliçó que em quedo d'aquesta setmana no és política: és arquitectònica. Un model que crides per la xarxa, allotjat en un servidor rere la frontera d'un país, és una dependència amb un interruptor d'apagada que no és teu. I l'Estat acaba de demostrar, amb data i hora, que l'accionarà. El mercat ja ha començat a esquivar aquell interruptor. La mateixa setmana en què un model es va apagar per decret, Microsoft va documentar sense fer soroll com executar-ne un altre sense cap API pel mig. I tres setmanes abans de tot això, Nvidia — l'empresa que ven els pics i les pales — va reescriure els seus propis estats financers per apostar que la computació va exactament cap allà.

Una API rere una frontera té un mode de fallada que viu en un edifici del govern

Tinc una llista curta de les maneres en què una funcionalitat pot morir sense que ningú toqui el seu codi. La caiguda de CrowdStrike va ser una mala actualització aigües amunt: 8,5 milions de màquines caigudes per un fitxer que ningú de la teva empresa va escriure. La tarifa de runtime d'Unity va ser un canvi de preus que no vas acceptar, aplicat retroactivament a programari que ja havies publicat. Tots dos són fallades de dependència d'un proveïdor i tots dos són, al capdavall, negociables: pots esquivar un pedaç dolent amb enginyeria i pots regatejar una factura.

Ahir s'hi va sumar una tercera entrada amb una causa genuïnament nova, i aquesta no és negociable. Una directiva sobirana: filtrada per nacionalitat, amb efecte immediat, sense cap SLA que la cobreixi i sense més apel·lació que obeir. No hi ha cap tiquet de suport que puguis obrir contra una ordre de control d'exportacions. El mateix proveïdor no s'hi va poder negar: només va poder protestar mentre obeïa. L'article sobre el règim de visats va batejar això com a risc de retirada sobirana, i el que convé interioritzar és que és estructuralment diferent de qualsevol risc de dependència que ja sapiguem gestionar. Pots comprar redundància entre regions, entre proveïdors, entre núvols. El que no pots comprar és redundància davant el fet que el nivell més capaç de model és ja un actiu estratègic controlat, i que el govern que ho decideix és el mateix on el teu proveïdor té la seu.

Cada mitigació a què recorrem per reflex — multiregió, multinúvol, un segon proveïdor — segueix acabant en un model allotjat al servidor d'un altre, accessible només mentre una directiva ho permeti. Només hi ha una mitigació que elimina l'interruptor en lloc de cobrir-s'hi: executar el model en hardware que és teu. Fa una setmana això sonava a una cosa que no ens podíem permetre. Avui és un requisit de resiliència, i les eines per dur-ho a terme van arribar la mateixa setmana que el risc.

La mateixa setmana en què es va apagar un model, Microsoft va documentar com executar-ne un altre sense cap servidor

Aquesta és la part que em va fer aturar. Phi Silica, de Microsoft, és un model de llenguatge petit de 3.300 milions de paràmetres. Fins fa poc només s'executava a les unitats de processament neuronal (NPU) dels PC Copilot+: una categoria de hardware estreta i certificada. Aquest juny, Microsoft va ampliar sense fer soroll la seva documentació de Windows AI amb una pàgina nova: com executar Phi Silica en GPU Nvidia RTX, sense necessitat de NPU. La llista de compatibilitat es remunta a la sèrie RTX 30 i posteriors, el llistó és d'uns 8 GB de memòria de vídeo dedicada i un controlador de la branca 560 o superior, i l'execució passa pel Windows Copilot Runtime sobre DirectML. La documentació és taxativa en l'única cosa que importa aquí: el model i la inferència s'executen del tot en el hardware del propi usuari. Sense cap crida a una API al núvol.

Llegeix el requisit una altra vegada i treu-lo del llenguatge de fitxa tècnica: un model de llenguatge útil, suportat i d'execució local apunta ara a una targeta gràfica que milions de persones ja tenen. No un accelerador de centre de dades sota llicència d'exportació. No un PC amb IA certificat que hagis d'anar a comprar. La targeta que ja és a la torre fent partides. La capacitat no es va abaratir: es va mudar a un edifici on l'Estat no pot entrar sense una ordre judicial.

Nvidia va reescriure els seus propis comptes per apostar per l'edge — tres setmanes abans de la retirada

Si vols saber cap on va de debò la demanda d'inferència, no llegeixis els manifestos. Llegeix l'empresa que té la visió més clara de la cartera de comandes i el major incentiu per no equivocar-se — i fixa't en què fa quan ha d'afirmar coses sota jurament.

Als seus resultats del primer trimestre de l'any fiscal 2027, el 20 de maig, Nvidia va canviar la manera de reportar el seu propi negoci. Els antics segments operatius — «Compute & Networking» i «Graphics» — han desaparegut. Al seu lloc hi ha dues plataformes de mercat: Data Center i Edge Computing. Dins de Data Center hi ha dos submercats, Hyperscale i ACIE (AI Clouds, Industrial, Enterprise). I al seu costat, per primera vegada com a plataforma del mateix rang, hi ha Edge Computing — definida com els dispositius per a la IA agèntica i física: PC, consoles, estacions de treball, estacions base AI-RAN, robòtica i automoció. La categoria que Nvidia anomenava «gaming» no es va encongir: va quedar absorbida en una plataforma el nom de la qual parla ara d'executar IA a l'edge. Edge Computing va facturar 6.400 milions de dòlars al trimestre en la seva pròpia línia.

Una empresa no reestructura el seu report per segments per caprici. És un document auditat, durador, car de canviar, i llegit amb lupa per gent que demanda quan se la indueix a error. Quan l'empresa amb la millor visió del futur col·loca Edge Computing al costat del centre de dades com a plataforma del mateix rang, t'està dient — en el llenguatge més restringit legalment que té una empresa — que no creu que el futur sigui un únic model gegant en un únic servidor rere la frontera d'una sola nació. I ho va dir al maig, tres setmanes abans de la retirada de juny. Per tant, això no és una reacció a la notícia. És l'aposta estructural que la notícia va venir a validar després.

Sigui dit, aquesta pel·lícula ja l'hem vista. La computació es descentralitza sempre que el centre acumula un passiu que l'extrem no carrega. Del mainframe al PC, quan el passiu era el cost i l'accés. Del PC de tornada al núvol durant una dècada, quan el passiu era la feina operativa. Ara el pèndol es carrega cap a l'altre costat sota el pes de la latència, l'economia unitària, la privadesa — i, des d'aquesta setmana, la sobirania, el passiu més pesant que el centre ha carregat mai, perquè és l'únic al qual no pots posar preu, assegurar ni negociar. El vaivé no és ideològic. És un negoci esquivant el risc més car del tauler.

El negoci esquiva el risc; és l'única cosa que fa sense fallar

Treu la geopolítica i això és una observació corrent sobre com es comporten les empreses. Una empresa és, per damunt de gairebé tot, una màquina d'esquivar riscos. Acceptarà pitjor latència, més cost inicial i més feina d'enginyeria a canvi d'eliminar un risc de cua que pot deixar el seu producte a zero d'un dia per l'altre — igual que paga una assegurança que espera no fer servir mai. Durant dos anys l'argument a favor de la inferència local es va fer sobre cost i privadesa, i va perdre gairebé totes les discussions, perquè la comoditat d'una API de frontera compensava el lock-in. Aquesta setmana el càlcul va canviar, perquè el risc de cua va deixar de ser hipotètic i va adquirir data i hora.

Ara l'objecció més forta, de cara, perquè és certa: un model de 3.300 milions de paràmetres no és Fable 5, i no se li acosta. No pots executar raonament de nivell frontera en una GPU de gaming, i bona part del que fa que valgui la pena pagar per aquestes eines viu en el nivell més alt que només poden servir els grans models remots. Cert, però mal plantejat. Ningú seriós proposa que ho moguis tot a local. La jugada és esglaonar la feina:

  • El 80–90 % de gran volum, sensible a la latència i d'exigència modesta — classificació, extracció, redacció d'esborranys, autocompletat, respostes augmentades amb recuperació sobre els teus propis documents — corre avui perfectament en un model local de 3–8B. I és, no per casualitat, la part del teu stack on una caiguda surt més cara, perquè és al camí crític de tot.
  • El 5–10 % genuïnament difícil que necessita la frontera es queda a l'API — però darrere d'un mecanisme de resguard documentat i provat, de manera que una retirada et degradi en lloc d'aturar-te.

I la bretxa s'estreny cada trimestre; els models petits segueixen absorbint capacitats que abans exigien la frontera. L'objectiu d'anar a local mai va ser la paritat. És l'opcionalitat — i ser amo de l'interruptor d'apagada de la part del teu producte que no et pots permetre que apagui un altre.

Una matisació honesta més, perquè talla en l'altre sentit: l'Estat controla també els xips. La mateixa administració que va retirar el model té Nvidia i AMD lliurant-li una part dels seus ingressos a la Xina pel sol privilegi de poder exportar. Però hi ha una diferència real entre controlar la propera venda i ficar la mà en una GPU que ja brunzeix al teu rack. La directiva que va caure aquesta setmana va ser remota i instantània. Un model resident en hardware que ja és teu no exposa cap interfície remota que una directiva pugui agafar. Els controls d'exportació frenen la teva propera compra. No retiren la teva base ja instal·lada.

El que posaria al diagrama d'arquitectura aquest trimestre

Si fos el teu CTO, aquesta és la feina que finançaria abans no es tanqui el proper cicle de planificació — concreta, no aspiracional:

  1. Afegeix una fila al mapa de dependències. Per a cada funcionalitat d'IA, anota quin govern la pot apagar i per a quins dels teus usuaris segons la seva nacionalitat. Si aquella cel·la és buida, el disseny no està acabat. Això va al diagrama d'arquitectura, no en una nota al peu legal.
  2. Posa una interfície d'inferència estable davant de cada crida al model, amb almenys una opció de pesos oberts o local ja connectada al darrere. El model passa a ser intercanviable; l'arnès segueix sent teu. El model és la mercaderia; l'arnès que l'envolta és el fossat — i ara, la resiliència.
  3. Esglaona les teves càrregues segons la capacitat que de debò requereixen i mou el nivell de gran volum i exigència modesta a un model local de 3–8B — de la classe Phi en una màquina amb RTX, o els seus equivalents de pesos oberts. Aquell sol moviment treu el teu camí més calent de la xarxa del tot.
  4. Escriu i prova un resguard per a cada funcionalitat de nivell frontera com ho faries per a una passarel·la de pagament: detecta el 4xx, degrada al model local, alerta, segueix servint. I després assaja-ho. CrowdStrike i Unity ens van ensenyar a tenir un resguard; la retirada va apujar l'aposta sobre provar-lo de debò.
  5. Dimensiona el hardware ja. La capacitat que tens en propietat no te la pot embargar una directiva. Una màquina amb RTX al teu rack — o ja a la torre del teu usuari — és una cobertura de sobirania que, de passada, retalla la teva factura d'inferència. L'economia dels models fonamentals anava de no pagar de més per llogar capacitat; això és la versió més afilada del mateix instint.

No construeixis el mur de càrrega amb una cosa que el vent pugui endur-se

El meu avi va tenir una empresa de construcció, i tenia una frase que repetia cada cop que algú li proposava un negoci que depenia d'una cosa aliena a la sala: mai facis negocis que depenguin de cap on bufa el vent. Es referia al temps, a les collites i a les dependències polítiques. El meu avi en sabia un niu i, cinquanta anys després, em toca prendre'm el seu consell de debò. No construeixis a partir d'una capacitat que un govern pugui apagar per caprici.

Aquesta setmana el vent va canviar de direcció, i un model del qual depenien centenars de milions de persones va desaparèixer abans que arribés la següent petició. El model de frontera va fallar perquè vivia en un servidor rere una frontera, i aquella frontera té amo. La documentació de Microsoft i el canvi de report de Nvidia són el mateix instint expressat dues vegades, per dues de les empreses més grans del sector, el mateix mes: el lloc durador per executar un model és hardware que algú posseeix, on cap directiva no el pot abastar. No perquè el local sigui més ràpid. Perquè el local no es pot retirar.

Si estàs cartografiant la teva pròpia cadena de subministrament d'IA a la recerca de l'interruptor que no controles, comença per l'article que acompanya aquest — Un règim de visats per a la intel·ligència — i després torna i escriu «quin govern pot apagar això» al diagrama, per escrit, al costat de la funcionalitat que tombaria.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.