← Tornar a tots els articles
Reptes

L'Apagada Global de CrowdStrike: Llicons sobre Resiliencia i Dependencia de Proveidors

Per Marc Molas·22 de juliol del 2024·9 min de lectura

El 19 de juliol de 2024, CrowdStrike va llancar una actualitzacio defectuosa del seu Falcon Sensor que va provocar el col·lapse de 8,5 milions de maquines Windows a tot el mon, segons CNN. Aerolinies a terra. Hospitals amb sistemes caiguts. Bancs sense operar. Perdues estimades nomes per a les empreses del Fortune 500: 5.400 milions de dolars.

No va ser un ciberatac. No va ser un ransomware. Va ser una actualitzacio rutinaria d'un proveidor de confianca.

Si dirigeixes una startup i penses que aixo no t'afecta, pensa-t'ho de nou. El que va passar aquell divendres es un cas d'estudi perfecte sobre dependencia de proveidors, resiliencia operativa i per que necessites enginyers que entenguin el que estan desplegant.

Que va passar tecnicament

La fallada va ser causada per una actualitzacio d'un arxiu de canal (channel file) del Falcon Sensor de CrowdStrike. Aquest arxiu contenia una definicio defectuosa que va provocar una lectura de memoria fora de limits (out-of-bounds memory read) al driver a nivell de kernel de Windows. El resultat: pantalla blava de la mort (BSOD) immediata.

L'actualitzacio es va alliberar cap a mitjanit (hora UTC). CrowdStrike la va revertir 90 minuts despres. Pero per llavors, milions de maquines ja havien descarregat automaticament l'arxiu defectuos.

El devastador no va ser nomes la fallada. Va ser la velocitat de propagacio. Un unic arxiu, distribuit automaticament, sense gates intermedis, a milions d'endpoints simultaneament. El mecanisme de distribucio dissenyat per protegir es va convertir en el vector del desastre.

Llico 1: La dependencia d'un unic proveidor es un risc existencial

Si una actualitzacio d'un sol proveidor pot tombar tota la teva operacio, la teva arquitectura te un punt unic de fallada.

Aixo s'aplica a tot: el teu proveidor de cloud, la teva eina de seguretat, la teva base de dades gestionada, el teu CDN. No estic dient que no facis servir serveis de tercers. Estic dient que has de dissenyar assumint que qualsevol d'ells pot fallar.

Preguntes que hauries de fer-te ara:

  • Si el teu proveidor de cloud principal cau durant 4 hores, que passa amb els teus usuaris
  • Si la teva eina de monitoritzacio deixa de funcionar, com t'assabentes que alguna cosa falla
  • Si el teu proveidor d'autenticacio cau, els teus usuaris poden seguir fent servir el producte

La resposta a aquestes preguntes defineix el teu nivell de resiliencia. I si la resposta a totes es "ens quedem parats", tens un problema d'arquitectura.

Llico 2: Les actualitzacions automatiques sense gates son perilloses

CrowdStrike va distribuir l'actualitzacio defectuosa a tots els endpoints alhora. Sense canary deployment. Sense rollout escalonat. Sense aprovacio manual per a sistemes critics.

Per a una startup, la llico es directa: qualsevol canvi que toqui produccio necessita gates.

  • Canary deployments: desplega primer a l'1% dels usuaris. Si no hi ha errors, puja al 10%, despres al 50%, despres al 100%.
  • Feature flags: separa el desplegament del llancament. Pots tenir codi en produccio sense que estigui actiu.
  • Rollback automatic: si les metriques d'error pugen per sobre d'un llindar, reverteix automaticament.
  • Aprovacio manual per a infraestructura critica: no tot ha de ser automatic. Els canvis a bases de dades, configuracio de seguretat o infraestructura de xarxa mereixen ulls humans.

Aixo no es burocracia. Es enginyeria.

Llico 3: Necessites enginyers que entenguin el que estan desplegant

Moltes startups externalitzen la seguretat completament. Contracten un proveidor, instal·len l'agent i s'obliden. No hi ha ningu intern que entengui que fa aquest agent, com interactua amb el sistema operatiu, ni quins permisos te.

L'incident de CrowdStrike demostra per que aixo es perillos. El Falcon Sensor opera a nivell de kernel. Te acces total al sistema. Quan falla, no es una app que es tanca: es el sistema operatiu sencer que deixa de funcionar.

No necessites un equip de seguretat de 10 persones. Pero si que necessites almenys un enginyer senior que:

  • Entengui les integracions dels teus proveidors de seguretat a nivell tecnic
  • Pugui auditar quins accessos te cada eina de tercers
  • Sapiga respondre quan alguna cosa falla, sense dependre del suport del proveidor
  • Avalui el risc de cada eina que opera amb privilegis elevats

La seguretat delegada sense supervisio no es seguretat. Es esperanca.

Llico 4: Els plans de resposta a incidents no son opcionals

Quan l'apagada de CrowdStrike va passar, les empreses que es van recuperar mes rapid tenien una cosa en comu: un pla de resposta a incidents documentat i practicat.

No estic parlant d'un document de 80 pagines que ningu ha llegit. Parlo de respostes clares a preguntes simples:

  • Qui lidera la resposta quan hi ha un incident
  • Com es comunica l'equip durant una crisi (si Slack cau, quin es el pla B)
  • On es el runbook per als escenaris mes probables
  • Qui te acces per fer rollbacks, reiniciar serveis, o escalar amb proveidors
  • Com es comunica als usuaris el que esta passant

A moltes startups, la resposta a totes aquestes preguntes es "ho anem veient". Aixo funciona fins que no funciona. I quan no funciona, cada minut de caiguda es diners, reputacio i confianca d'usuaris que es perd.

Si el teu equip no ha fet mai un simulacre d'incident, aquest cap de setmana es un bon moment per comencar.

Llico 5: La resiliencia es una disciplina d'enginyeria

La resiliencia no es alguna cosa que compres. No es un producte SaaS. No es un checkbox en una auditoria de compliance. Es una disciplina d'enginyeria que requereix disseny intencional, implementacio acurada i manteniment continu.

Implica:

  • Redundancia: no tenir un unic punt de fallada a cap nivell (infraestructura, dades, proveidors, persones)
  • Degradacio elegant: quan alguna cosa falla, el sistema segueix funcionant amb capacitat reduida en lloc de col·lapsar completament
  • Circuit breakers: mecanismes que detecten fallades en cascada i les aillen abans que es propaguin
  • Chaos engineering: provar deliberadament que passa quan les coses fallen, abans que fallin en produccio
  • Observabilitat: no pots arreglar el que no pots veure. Logs, metriques, alertes, dashboards

I el mes important: requereix persones que hagin dissenyat sistemes per sobreviure a fallades. Enginyers que han viscut incidents, que saben el que se sent quan un sistema cau a les 3 de la matinada, i que dissenyen tenint-ho en compte.

El que aixo significa per a la teva startup

Si ets una startup en fase primerenca, probablement no necessites redundancia multi-cloud ni un equip de SRE de 5 persones. Pero si que necessites el basic:

  • Un enginyer senior que entengui DevOps i seguretat
  • Desplegaments amb gates, no pushes directes a produccio
  • Un pla minim de resposta a incidents
  • Auditoria de quins proveidors tenen acces a que, i amb quins privilegis
  • Backups provats (no nomes configurats, sino provats per a restauracio)

El problema es que trobar enginyers amb experiencia real en resiliencia operativa i gestio d'incidents no es facil. Es un perfil que es forma amb anys d'experiencia, no amb cursos.

A Conectia treballem amb enginyers senior de LATAM que han construit i operat infraestructura en produccio per a empreses en creixement. Perfils de DevOps i SRE que entenen la gestio de risc de proveidors, que han dissenyat pipelines de desplegament amb gates, i que saben construir sistemes que sobreviuen quan les coses fallen. Perque sempre fallen.

L'incident de CrowdStrike no va ser el primer i no sera l'ultim. La pregunta no es si la teva startup afrontara un incident d'aquest tipus. La pregunta es si el teu equip esta preparat per respondre quan passi.


El teu equip te la capacitat tecnica per respondre a un incident en produccio? Parla amb un CTO — t'ajudem a incorporar enginyers senior en DevOps i SRE que construeixen sistemes resilients des del dia u.

Preparat per construir el teu equip d'enginyeria?

Parla amb un partner tècnic i desplega desenvolupadors validats per CTOs en 72 hores.