Desafios

Cultura de Plantão Bem Feita: Resposta a Incidentes Sem Esgotamento

Por Marc Molas·31 de agosto de 2023·10 min de leitura

O plantão é uma das formas mais rápidas de destruir o moral de uma equipa de engenharia se o fizeres mal. E a maioria das empresas faz mal.

Os sintomas são previsíveis: as mesmas duas pessoas recebem sempre os alertas porque ninguém mais "conhece suficientemente bem o sistema." Os engenheiros temem as suas semanas de plantão. Os incidentes repetem-se porque ninguém corrige as causas raiz. Os melhores engenheiros vão-se embora e não consegues perceber porque é que a tua retenção é terrível.

Construir uma cultura de plantão saudável não é complicado. Requer pensamento claro, algumas boas ferramentas e uma liderança que trate o plantão como uma responsabilidade de primeira classe, não como uma reflexão tardia.

SLAs vs. SLOs: Saber o Que Estás Realmente a Gerir

Antes de construir uma rotação de plantão, precisas de saber o que estás a defender. Isto começa por entender a diferença entre SLAs e SLOs, porque a maioria das equipas os confunde.

SLA (Service Level Agreement) é um contrato com os teus clientes. "Garantimos 99,9% de disponibilidade. Se o violarmos, recebe créditos de serviço." Os SLAs têm consequências legais e financeiras.

SLO (Service Level Objective) é um objetivo interno mais rigoroso do que o SLA. Se o teu SLA promete 99,9%, o teu SLO pode visar 99,95%. O SLO dá-te uma margem — um error budget — antes de violar o SLA.

Se o teu SLO for 99,95% numa janela de 30 dias, tens aproximadamente 21 minutos de downtime permitido por mês. Quando estás dentro do orçamento, lança funcionalidades agressivamente. Quando o estás a consumir, abranda e prioriza a fiabilidade.

Porque importa para o plantão: os teus engenheiros de plantão devem conhecer os SLOs que estão a defender e o estado atual do error budget. "Temos 14 minutos de orçamento restantes este mês" cria urgência. "Mantém o sistema a funcionar" é vago o suficiente para não ter significado.

Padrões de Rotação para Equipas Pequenas

O erro mais comum com o plantão é torná-lo demasiado oneroso para os indivíduos. Eis o que funciona para equipas de 5-8 engenheiros, o tamanho típico em startups:

Rotação semanal, um único responsável primário. Uma pessoa gere todos os alertas durante uma semana (de segunda a segunda). Simples e eficaz com pessoas suficientes na rotação.

A rotação mínima viável é de 4 pessoas. Menos de 4 significa que cada pessoa está de plantão mais de 25% do tempo — insustentável. Com 5-6, obtens um confortável cadência de uma semana em cinco.

Follow-the-sun para equipas distribuídas. Os engenheiros na Europa cobrem 08:00-20:00 CET, as Américas cobrem o resto. Ninguém perde sono. Esta é uma das vantagens reais das equipas distribuídas.

Plantão secundário como escalada. Se o primário não conseguir resolver em 30-60 minutos, escala para o secundário — alguém com conhecimento mais profundo do sistema. Faz rodar ambos os papéis.

Regra absoluta: não se espera que a pessoa de plantão faça o trabalho normal do sprint à mesma capacidade. Estar de plantão significa ser interrompível. Se também esperas que feche 8 story points, estás a prepará-los para fazer ambas as coisas mal.

A Linha de Base das Ferramentas

Não precisas de um investimento massivo em ferramentas, mas precisas dos básicos:

Alertas e notificações: PagerDuty ou Opsgenie. Gerem o roteamento de alertas, políticas de escalada, horários e substituições de plantão. O PagerDuty é o padrão da indústria. O Opsgenie (agora parte da Atlassian) é uma alternativa sólida e mais barata. Não dependas de notificações do Slack ou email para alertas. As pessoas silenciam o Slack. As pessoas perdem emails. Um telefonema às 3 da manhã do PagerDuty não é ignorado.

Runbooks: Para cada alerta que chama alguém, deve haver um runbook. Um runbook é um documento que responde a: O que significa este alerta? Qual é a causa provável? Quais são as primeiras 3 coisas a verificar? Como o mitigos? Onde estão os logs e os dashboards? Um runbook transforma uma sessão de pânico de 45 minutos num diagnóstico de 10 minutos. Guarda-os no teu wiki, liga-os diretamente no alerta.

Página de estado: Statuspage (Atlassian), Instatus ou mesmo uma página estática simples. Quando algo está em baixo, os teus clientes devem saber pela tua página de estado, não por tentar usar o produto e falhar. O engenheiro de plantão deve conseguir atualizar a página de estado em menos de um minuto.

Canal de incidentes: Um canal Slack dedicado (ou equivalente) criado automaticamente para cada incidente. Toda a comunicação sobre o incidente acontece lá. Sem DMs, sem threads paralelas. Isto cria uma linha de tempo automática inestimável para o postmortem.

Postmortems Sem Culpa: Como Fazer Um Verdadeiro

"Postmortem sem culpa" tornou-se um buzzword que muitas equipas afirmam praticar e poucas praticam de facto. Eis como é um verdadeiro:

Timing: Dentro de 48 horas após a resolução. Espera uma semana e as pessoas esquecem os detalhes.

Participantes: Todos os envolvidos no incidente, mais quem quiser aprender.

Estrutura:

Reconstrução da linha de tempo. O que aconteceu, em que ordem, desde o primeiro sinal até à resolução.
Análise da causa raiz. Não "quem se enganou" mas "o que no sistema permitiu que isto acontecesse?" Um erro humano nunca é a causa raiz — é o sistema que o deixou chegar à produção.
Fatores contribuintes. O que tornou a deteção lenta? O que tornou a resolução difícil?
Elementos de ação. Concretos, atribuídos, com datas limite. "Melhorar o monitoramento" não é um elemento de ação. "Adicionar um alerta na taxa de erros de pagamento que exceda 2% durante 5 minutos, atribuído à Sofia, prazo 15 de setembro" é.

O elemento cultural crítico: ninguém recebe punição por incidentes. Se as pessoas temem a culpa, escondem informação. Se escondem informação, não podes aprender. Se não podes aprender, os incidentes repetem-se.

Compensar o Plantão Adequadamente

Esta é a causa pela qual sempre lutarei: se não compensas os engenheiros de plantão, não tens uma rotação — tens exploração.

Estar de plantão limita o teu tempo pessoal. Não podes ir acampar sem cobertura. Mantens o laptop acessível. Fingir que é "apenas parte do trabalho" é como perdes as tuas melhores pessoas.

Modelos de compensação que funcionam:

Subsídio fixo por turno de plantão. 200-500 EUR por semana, independentemente de receberes alertas.
Bónus por incidente. Compensação adicional por respostas reais fora do horário laboral.
Tempo livre compensatório. Alerta às 3 da manhã durante 2 horas? Meio dia livre no dia seguinte. Inegociável.
Combinação. Subsídio + tempo livre compensatório é o modelo mais comum e mais equitativo.

O que importa é que seja explícito, no contrato de trabalho e aplicado de forma consistente.

Sinais de que a Tua Cultura de Plantão Está Quebrada

Se algum destes te soa familiar, tens trabalho a fazer:

As pessoas temem as semanas de plantão. Não uma leve irritação — verdadeiro medo. Mencionam-no nas 1:1 e trocam turnos constantemente.
A mesma pessoa recebe sempre os alertas. Silo de conhecimento ou alertas mal configurados — de qualquer forma, é insustentável.
Os incidentes repetem-se. A mesma falha de poucas em poucas semanas. Os elementos de ação do postmortem nunca são priorizados.
Sem compensação ou reconhecimento. O plantão é esperado mas invisível.
O plantão é usado como praxe. Novos engenheiros entram no plantão antes de entenderem o sistema.
Não há runbooks. Cada incidente é uma investigação fresca do zero.

Tudo isto é corrigível. Requer uma liderança que tome a saúde operacional tão a sério quanto a entrega de funcionalidades.

Na Conectia, os engenheiros sénior que integramos nas tuas equipas já viveram culturas de plantão boas e terríveis. Trazem maturidade operacional — escrevendo runbooks, configurando alertas adequados, construindo a automatização que previne incidentes em vez de apenas responder a eles. Quando a tua equipa tem pessoas que tratam a fiabilidade em produção como um ofício, o plantão deixa de ser um fardo e torna-se uma parte normal e bem gerida da vida de engenharia.

Precisas de engenheiros que construam sistemas fiáveis, não apenas funcionalidades? Fala com um CTO — os nossos engenheiros sénior LATAM trazem a maturidade operacional que transforma o plantão de uma obrigação temida numa prática sustentável.

Cultura de Plantão Bem Feita: Resposta a Incidentes Sem Esgotamento

SLAs vs. SLOs: Saber o Que Estás Realmente a Gerir

Padrões de Rotação para Equipas Pequenas

A Linha de Base das Ferramentas

Postmortems Sem Culpa: Como Fazer Um Verdadeiro

Compensar o Plantão Adequadamente

Sinais de que a Tua Cultura de Plantão Está Quebrada

Artigos Relacionados

53% de Recall: Por Que o Próprio AIOps da Microsoft Confirma que o Engenheiro Continua a Ser Imprescindível

Deixa o LLM falar, não tocar: a arquitetura de ciclo fechado que sobrevive em produção (3/3)

A Região Operativa Soberana Viável: porque o teu roadmap de IA bate num muro de energia–carbono–água (2/3)

Pronto para construir a sua equipa de engenharia?