Un modelo que corre en tu propio hardware no lo apaga ningún gobierno
Este fin de semana hemos visto proyectos y prototipos romperse porque un gobierno de otro país decidió vetar el uso de una mercancía.
No es un bug. No es un despliegue fallido. No es un límite de tasa que puedas reintentar tras una espera. Una directiva estadounidense de control de exportaciones ordenó apagar el modelo de IA público más capaz del mundo — para todos los usuarios, en todas partes, incluidos los propios empleados del proveedor que tenían el pasaporte equivocado. Si tu producto llamaba a ese modelo por una API, tu producto no se degradó con elegancia. Devolvió un error y se detuvo. En Un sistema de visados para la inteligencia analicé lo que eso le hizo al precio del riesgo soberano y a las cuentas de las salidas a bolsa. Este artículo va sobre la otra mitad de la factura: lo que le hace a cómo construyes.
Escribo esto desde el asiento de quien construye, no desde el despacho de políticas ni desde la mesa de los inversores. Pongo en producción sistemas que llaman a estas APIs, y la lección que me llevo de esta semana no es política: es arquitectónica. Un modelo al que llamas por la red, alojado en un servidor tras la frontera de un país, es una dependencia con un interruptor de apagado que no es tuyo. Y el Estado acaba de demostrar, con fecha y hora, que lo va a accionar. El mercado ya ha empezado a rodear ese interruptor. La misma semana en que un modelo se apagó por decreto, Microsoft documentó sin hacer ruido cómo ejecutar otro sin ninguna API de por medio. Y tres semanas antes de todo esto, Nvidia — la empresa que vende los picos y las palas — reescribió sus propios estados financieros para apostar a que la computación va exactamente hacia ahí.
Una API tras una frontera tiene un modo de fallo que vive en un edificio del gobierno
Llevo una lista corta de las formas en que una funcionalidad puede morir sin que nadie toque su código. La caída de CrowdStrike fue una mala actualización aguas arriba: 8,5 millones de máquinas caídas por un archivo que nadie de tu empresa escribió. La tarifa de runtime de Unity fue un cambio de precios que no aceptaste, aplicado retroactivamente a software que ya habías publicado. Ambos son fallos de dependencia de un proveedor y ambos son, al final, negociables: puedes sortear un parche malo con ingeniería y puedes regatear una factura.
Ayer se sumó una tercera entrada con una causa genuinamente nueva, y esta no es negociable. Una directiva soberana: filtrada por nacionalidad, con efecto inmediato, sin ningún SLA que la cubra y sin más apelación que obedecer. No hay ticket de soporte que puedas abrir contra una orden de control de exportaciones. El propio proveedor no pudo negarse: solo pudo protestar mientras obedecía. El artículo sobre el sistema de visados bautizó esto como riesgo de retirada soberana, y lo que conviene interiorizar es que es estructuralmente distinto de cualquier riesgo de dependencia que ya sepamos gestionar. Puedes comprar redundancia entre regiones, entre proveedores, entre nubes. Lo que no puedes comprar es redundancia frente al hecho de que el nivel más capaz de modelo es ya un activo estratégico controlado, y que el gobierno que así lo decide es el mismo en el que tu proveedor tiene su sede.
Cada mitigación a la que recurrimos por reflejo — multirregión, multinube, un segundo proveedor — sigue terminando en un modelo alojado en el servidor de otro, accesible solo mientras una directiva lo permita. Solo hay una mitigación que elimina el interruptor en lugar de cubrirse frente a él: ejecutar el modelo en hardware que es tuyo. Hace una semana eso sonaba a algo que no nos podíamos permitir. Hoy es un requisito de resiliencia, y las herramientas para llevarlo a cabo llegaron la misma semana que el riesgo.
La misma semana en que se apagó un modelo, Microsoft documentó cómo ejecutar otro sin ningún servidor
Esta es la parte que me hizo detenerme. Phi Silica, de Microsoft, es un modelo de lenguaje pequeño de 3.300 millones de parámetros. Hasta hace poco solo se ejecutaba en las unidades de procesamiento neuronal (NPU) de los PC Copilot+: una categoría de hardware estrecha y certificada. Este junio, Microsoft amplió sin hacer ruido su documentación de Windows AI con una página nueva: cómo ejecutar Phi Silica en GPU Nvidia RTX, sin necesidad de NPU. La lista de compatibilidad se remonta a la serie RTX 30 y posteriores, el listón está en unos 8 GB de memoria de vídeo dedicada y un controlador de la rama 560 o superior, y la ejecución pasa por el Windows Copilot Runtime sobre DirectML. La documentación es tajante en lo único que importa aquí: el modelo y la inferencia se ejecutan por completo en el hardware del propio usuario. Sin llamadas a ninguna API en la nube.
Lee el requisito otra vez y sácalo del lenguaje de ficha técnica: un modelo de lenguaje útil, soportado y de ejecución local apunta ahora a una tarjeta gráfica que millones de personas ya tienen. No un acelerador de centro de datos bajo licencia de exportación. No un PC con IA certificado que tengas que ir a comprar. La tarjeta que ya está en la torre echando partidas. La capacidad no se abarató: se mudó a un edificio al que el Estado no puede entrar sin una orden judicial.
Nvidia reescribió sus propias cuentas para apostar por el edge — tres semanas antes de la retirada
Si quieres saber hacia dónde va de verdad la demanda de inferencia, no leas los manifiestos. Lee a la empresa que tiene la visión más clara de la cartera de pedidos y el mayor incentivo para no equivocarse al respecto — y fíjate en lo que hace cuando tiene que afirmar cosas bajo juramento.
En sus resultados del primer trimestre del año fiscal 2027, el 20 de mayo, Nvidia cambió la forma de reportar su propio negocio. Los antiguos segmentos operativos — «Compute & Networking» y «Graphics» — han desaparecido. En su lugar hay dos plataformas de mercado: Data Center y Edge Computing. Dentro de Data Center hay dos submercados, Hyperscale y ACIE (AI Clouds, Industrial, Enterprise). Y a su lado, por primera vez como plataforma de igual rango, está Edge Computing — definida como los dispositivos para la IA agéntica y física: PC, consolas, estaciones de trabajo, estaciones base AI-RAN, robótica y automoción. La categoría que Nvidia llamaba «gaming» no encogió: quedó absorbida en una plataforma cuyo nombre habla ahora de ejecutar IA en el edge. Edge Computing facturó 6.400 millones de dólares en el trimestre en su propia línea.
Una empresa no reestructura su reporte por segmentos por capricho. Es un documento auditado, duradero, caro de cambiar, y leído con lupa por gente que demanda cuando se la induce a error. Cuando la empresa con la mejor visión del futuro coloca Edge Computing junto al centro de datos como plataforma de igual rango, te está diciendo — en el lenguaje más restringido legalmente que tiene una empresa — que no cree que el futuro sea un único modelo gigante en un único servidor tras la frontera de una sola nación. Y lo dijo en mayo, tres semanas antes de la retirada de junio. Así que esto no es una reacción a la noticia. Es la apuesta estructural que la noticia vino a validar después.
Justo es decir que esta película ya la hemos visto. La computación se descentraliza siempre que el centro acumula un pasivo que el extremo no carga. Del mainframe al PC, cuando el pasivo era el coste y el acceso. Del PC de vuelta a la nube durante una década, cuando el pasivo era el trabajo operativo. Ahora el péndulo se carga hacia el otro lado bajo el peso de la latencia, la economía unitaria, la privacidad — y, desde esta semana, la soberanía, el pasivo más pesado que el centro ha cargado jamás, porque es el único al que no puedes ponerle precio, asegurar ni negociar. El vaivén no es ideológico. Es un negocio rodeando el riesgo más caro del tablero.
El negocio rodea el riesgo; es lo único que hace sin fallar
Quita la geopolítica y esto es una observación corriente sobre cómo se comportan las empresas. Una empresa es, por encima de casi todo, una máquina de esquivar riesgos. Aceptará peor latencia, más coste inicial y más trabajo de ingeniería con tal de eliminar un riesgo de cola que puede dejar su producto a cero de la noche a la mañana — igual que paga un seguro que espera no usar nunca. Durante dos años el argumento a favor de la inferencia local se hizo sobre coste y privacidad, y perdió casi todas las discusiones, porque la comodidad de una API de frontera compensaba el lock-in. Esta semana el cálculo cambió, porque el riesgo de cola dejó de ser hipotético y adquirió fecha y hora.
Ahora la objeción más fuerte, de frente, porque es cierta: un modelo de 3.300 millones de parámetros no es Fable 5, y no se le acerca. No puedes ejecutar razonamiento de nivel frontera en una GPU de gaming, y buena parte de lo que hace que valga la pena pagar por estas herramientas vive en el nivel más alto que solo pueden servir los grandes modelos remotos. Cierto, pero mal planteado. Nadie serio propone que lo muevas todo a local. La jugada es escalonar el trabajo:
- El 80–90 % de gran volumen, sensible a la latencia y de exigencia modesta — clasificación, extracción, redacción de borradores, autocompletado, respuestas aumentadas con recuperación sobre tus propios documentos — corre hoy perfectamente en un modelo local de 3–8B. Y es, no por casualidad, la parte de tu stack donde una caída sale más cara, porque está en el camino crítico de todo.
- El 5–10 % genuinamente difícil que necesita la frontera se queda en la API — pero detrás de un mecanismo de respaldo documentado y probado, de modo que una retirada te degrade en lugar de detenerte.
Y la brecha se estrecha cada trimestre; los modelos pequeños siguen absorbiendo capacidades que antes exigían la frontera. El objetivo de irse a local nunca fue la paridad. Es la opcionalidad — y ser dueño del interruptor de apagado de la parte de tu producto que no te puedes permitir que apague otro.
Una matización honesta más, porque corta en el otro sentido: el Estado controla también los chips. La misma administración que retiró el modelo tiene a Nvidia y AMD entregándole una parte de sus ingresos en China por el mero privilegio de poder exportar. Pero hay una diferencia real entre controlar la próxima venta y meter la mano en una GPU que ya zumba en tu rack. La directiva que cayó esta semana fue remota e instantánea. Un modelo residente en hardware que ya es tuyo no expone ninguna interfaz remota que una directiva pueda agarrar. Los controles de exportación frenan tu próxima compra. No retiran tu base ya instalada.
Lo que pondría en el diagrama de arquitectura este trimestre
Si fuera tu CTO, este es el trabajo que financiaría antes de que cierre el próximo ciclo de planificación — concreto, no aspiracional:
- Añade una fila al mapa de dependencias. Para cada funcionalidad de IA, anota qué gobierno puede apagarla y para cuáles de tus usuarios según su nacionalidad. Si esa celda está vacía, el diseño no está terminado. Esto va en el diagrama de arquitectura, no en una nota a pie de página legal.
- Pon una interfaz de inferencia estable delante de cada llamada al modelo, con al menos una opción de pesos abiertos o local ya conectada por detrás. El modelo pasa a ser intercambiable; el armazón sigue siendo tuyo. El modelo es la mercancía; el armazón que lo rodea es el foso — y ahora, la resiliencia.
- Escalona tus cargas según la capacidad que de verdad requieren y mueve el nivel de gran volumen y exigencia modesta a un modelo local de 3–8B — de la clase Phi en una máquina con RTX, o sus equivalentes de pesos abiertos. Ese solo movimiento saca tu camino más caliente de la red por completo.
- Escribe y prueba un respaldo para cada funcionalidad de nivel frontera como lo harías para una pasarela de pago: detecta el 4xx, degrada al modelo local, alerta, sigue sirviendo. Y después ensáyalo. CrowdStrike y Unity nos enseñaron a tener un respaldo; la retirada subió la apuesta sobre probarlo de verdad.
- Dimensiona el hardware ya. La capacidad que posees en propiedad no te la puede embargar una directiva. Una máquina con RTX en tu rack — o ya en la torre de tu usuario — es una cobertura de soberanía que, de paso, recorta tu factura de inferencia. La economía de los modelos fundacionales iba de no pagar de más por alquilar capacidad; esto es la versión más afilada del mismo instinto.
No construyas el muro de carga con algo que el viento pueda llevarse
Mi abuelo tuvo una empresa de construcción, y tenía una frase que repetía cada vez que alguien le proponía un negocio que dependía de algo ajeno a la sala: nunca hagas negocios que dependan de hacia dónde sopla el viento. Hablaba del tiempo, de las cosechas y de las dependencias políticas. Mi abuelo sabía de lo suyo y, cincuenta años después, me toca tomarme su consejo en serio. No construyas a partir de una capacidad que un gobierno pueda apagar por capricho.
Esta semana el viento cambió de dirección, y un modelo del que dependían cientos de millones de personas desapareció antes de que llegara la siguiente petición. El modelo de frontera falló porque vivía en un servidor tras una frontera, y esa frontera tiene dueño. La documentación de Microsoft y el cambio de reporte de Nvidia son el mismo instinto expresado dos veces, por dos de las mayores empresas del sector, en el mismo mes: el sitio duradero para ejecutar un modelo es hardware que alguien posee, donde ninguna directiva puede alcanzarlo. No porque lo local sea más rápido. Porque lo local no se puede retirar.
Si estás cartografiando tu propia cadena de suministro de IA en busca del interruptor que no controlas, empieza por el artículo que acompaña a este — Un sistema de visados para la inteligencia — y luego vuelve y escribe «qué gobierno puede apagar esto» en el diagrama, por escrito, al lado de la funcionalidad que tumbaría.


