Cultura de Guàrdia Ben Feta: Resposta a Incidents Sense Esgotament
La guàrdia és una de les maneres més ràpides de destruir la moral d'un equip d'enginyeria si la fas malament. I la majoria de les empreses la fan malament.
Els símptomes són previsibles: les mateixes dues persones reben sempre les alertes perquè ningú més "coneix prou bé el sistema." Els enginyers temen les seves setmanes de guàrdia. Els incidents es repeteixen perquè ningú arregla les causes arrel. Els millors enginyers marxen i no pots entendre per què la teva retenció és terrible.
Construir una cultura de guàrdia saludable no és complicat. Requereix pensament clar, algunes bones eines i un lideratge que tracti la guàrdia com una responsabilitat de primera classe, no com quelcom secundari.
SLAs vs. SLOs: Saber Què Estàs Gestionant Realment
Abans de construir una rotació de guàrdia, has de saber què estàs defensant. Això comença entenent la diferència entre SLAs i SLOs, perquè la majoria dels equips els confonen.
SLA (Service Level Agreement) és un contracte amb els teus clients. "Garantim un 99,9% de disponibilitat. Si l'incomplirem, reben crèdits de servei." Els SLAs tenen conseqüències legals i financeres.
SLO (Service Level Objective) és un objectiu intern més estricte que el SLA. Si el teu SLA promet un 99,9%, el teu SLO podria apuntar al 99,95%. El SLO et dona un marge — un error budget — abans d'incomplir el SLA.
Si el teu SLO és del 99,95% en una finestra de 30 dies, tens aproximadament 21 minuts de temps d'inactivitat permès al mes. Quan estàs dins del pressupost, llança funcions agressivament. Quan l'estàs consumint, alenteix i prioritza la fiabilitat.
Per què importa per a la guàrdia: els teus enginyers de guàrdia haurien de conèixer els SLOs que estan defensant i l'estat actual de l'error budget. "Tenim 14 minuts de pressupost restants aquest mes" crea urgència. "Mantén el sistema en funcionament" és prou vague per no tenir sentit.
Patrons de Rotació per a Equips Petits
L'error més comú amb la guàrdia és fer-la massa onerosa per als individus. Aquí hi ha el que funciona per a equips de 5-8 enginyers, la mida típica a les startups:
Rotació setmanal, un únic responsable principal. Una persona gestiona totes les alertes durant una setmana (de dilluns a dilluns). Simple i efectiu amb prou gent a la rotació.
La rotació mínima viable és de 4 persones. Menys de 4 significa que cada persona és de guàrdia més del 25% del temps — insostenible. Amb 5-6, obtens una còmoda cadència d'una setmana de cada cinc.
Follow-the-sun per a equips distribuïts. Els enginyers a Europa cobreixen 08:00-20:00 CET, Amèrica cobreix la resta. Ningú perd el son. Aquest és un dels avantatges reals dels equips distribuïts.
Guàrdia secundària com a escalada. Si el responsable principal no pot resoldre en 30-60 minuts, escala al secundari — algú amb coneixement més profund del sistema. Rota tots dos rols.
Norma ferma: no s'espera que la persona de guàrdia faci el treball normal del sprint a la mateixa capacitat. Estar de guàrdia significa ser interrompible. Si a més esperes que tanqui 8 story points, els estàs configurant per fer totes dues coses malament.
L'Equipament Bàsic
No necessites una gran inversió en eines, però necessites els bàsics:
Alertes i notificació: PagerDuty o Opsgenie. Gestionen l'encaminament d'alertes, les polítiques d'escalada, els calendaris i les substitucions de guàrdia. PagerDuty és l'estàndard del sector. Opsgenie (ara part d'Atlassian) és una alternativa sòlida i més econòmica. No depenguis de notificacions de Slack o correu electrònic per a les alertes. La gent silencia Slack. La gent es perd els correus. Una trucada telefònica a les 3 de la matinada de PagerDuty no s'ignora.
Runbooks: Per a cada alerta que crida algú, hauria d'haver-hi un runbook. Un runbook és un document que respon a: Què significa aquesta alerta? Quina és la causa probable? Quines són les primeres 3 coses que cal verificar? Com ho mitigues? On són els logs i els dashboards? Un runbook converteix una sessió de pànic de 45 minuts en un diagnòstic de 10 minuts. Guarda'ls al teu wiki, vincula'ls directament a l'alerta.
Pàgina d'estat: Statuspage (Atlassian), Instatus o fins i tot una pàgina estàtica senzilla. Quan quelcom està caigut, els teus clients haurien d'assabentar-se per la teva pàgina d'estat, no intentant usar el producte i fracassant. L'enginyer de guàrdia ha de poder actualitzar la pàgina d'estat en menys d'un minut.
Canal d'incidents: Un canal dedicat de Slack (o equivalent) que es crea automàticament per a cada incident. Tota la comunicació sobre l'incident passa allà. Sense missatges directes, sense fils paral·lels. Això crea una línia de temps automàtica inestimable per al postmortem.
Postmortems Sense Culpa: Com Fer-ne Un de Veritat
"Postmortem sense culpa" s'ha convertit en una paraula de moda que molts equips afirmen practicar i pocs practiquen realment. Aquí és com n'és un de real:
Moment: Dins de les 48 hores posteriors a la resolució. Espera una setmana i la gent oblida els detalls.
Assistents: Tots els involucrats en l'incident, més qualsevol que vulgui aprendre.
Estructura:
- Reconstrucció de la línia de temps. Què va passar, en quin ordre, des del primer senyal fins a la resolució.
- Anàlisi de causa arrel. No "qui la va cagar" sinó "què en el sistema va permetre que passés això?" Un error humà mai és la causa arrel — ho és el sistema que el va deixar arribar a producció.
- Factors contribuents. Què va alentir la detecció? Què va dificultar la resolució?
- Elements d'acció. Concrets, assignats, amb dates límit. "Millorar el monitoratge" no és un element d'acció. "Afegir una alerta en la taxa d'error de pagaments que superi el 2% durant 5 minuts, assignada a Sofia, data límit 15 de setembre" sí ho és.
L'element cultural crític: ningú rep càstig pels incidents. Si la gent tem el retret, amaga informació. Si amaga informació, no pots aprendre. Si no pots aprendre, els incidents es repeteixen.
Compensar la Guàrdia Adequadament
Aquesta és la causa per la qual sempre lluito: si no compenses els enginyers de guàrdia, no tens una rotació — tens explotació.
Estar de guàrdia limita el teu temps personal. No pots anar d'acampada sense cobertura. Mantens l'ordinador portàtil accessible. Pretendre que és "simplement part del treball" és com perds els teus millors professionals.
Models de compensació que funcionen:
- Estipendi fix per torn de guàrdia. 200-500 EUR per setmana, independentment de si reps alertes.
- Bonificació per incident. Compensació addicional per respostes reals fora de l'horari laboral.
- Temps lliure compensatori. Alerta a les 3 de la matinada durant 2 hores? Mig dia lliure l'endemà. Innegociable.
- Combinació. Estipendi + temps lliure compensatori és el model més comú i més equitatiu.
El que importa és que sigui explícit, en el contracte laboral i aplicat de manera consistent.
Senyals que la teva Cultura de Guàrdia Està Trencada
Si qualsevol d'aquests et sona familiar, tens feina per fer:
- La gent tem les setmanes de guàrdia. No una lleu molèstia — veritable temença. Ho mencionen en les 1:1 i canvien torns constantment.
- Sempre criden la mateixa persona. Silot de coneixement o alertes mal configurades — en qualsevol cas, és insostenible.
- Els incidents es repeteixen. La mateixa fallada cada poques setmanes. Els elements d'acció del postmortem mai es prioritzen.
- Sense compensació ni reconeixement. La guàrdia s'espera però és invisible.
- La guàrdia s'utilitza com a iniciació. Els nous enginyers entren de guàrdia abans d'entendre el sistema.
- No hi ha runbooks. Cada incident és una investigació nova des de zero.
Tot això és solucionable. Requereix un lideratge que prengui la salut operacional tan seriosament com el lliurament de funcions.
A Conectia, els enginyers senior que integrem als teus equips han viscut cultures de guàrdia bones i terribles. Aporten maduresa operacional — escrivint runbooks, configurant alertes adequades, construint l'automatització que prevé incidents en lloc de simplement respondre'ls. Quan el teu equip té persones que tracten la fiabilitat en producció com un ofici, la guàrdia deixa de ser una càrrega i es converteix en una part normal i ben gestionada de la vida d'enginyeria.
Necessites enginyers que construeixin sistemes fiables, no només funcions? Parla amb un CTO — els nostres enginyers senior de LATAM aporten la maduresa operacional que converteix la guàrdia d'una obligació temuda en una pràctica sostenible.


