Cultura de Plantão Bem Feita: Resposta a Incidentes Sem Esgotamento
O plantão é uma das formas mais rápidas de destruir o moral de uma equipa de engenharia se o fizeres mal. E a maioria das empresas faz mal.
Os sintomas são previsíveis: as mesmas duas pessoas recebem sempre os alertas porque ninguém mais "conhece suficientemente bem o sistema." Os engenheiros temem as suas semanas de plantão. Os incidentes repetem-se porque ninguém corrige as causas raiz. Os melhores engenheiros vão-se embora e não consegues perceber porque é que a tua retenção é terrível.
Construir uma cultura de plantão saudável não é complicado. Requer pensamento claro, algumas boas ferramentas e uma liderança que trate o plantão como uma responsabilidade de primeira classe, não como uma reflexão tardia.
SLAs vs. SLOs: Saber o Que Estás Realmente a Gerir
Antes de construir uma rotação de plantão, precisas de saber o que estás a defender. Isto começa por entender a diferença entre SLAs e SLOs, porque a maioria das equipas os confunde.
SLA (Service Level Agreement) é um contrato com os teus clientes. "Garantimos 99,9% de disponibilidade. Se o violarmos, recebe créditos de serviço." Os SLAs têm consequências legais e financeiras.
SLO (Service Level Objective) é um objetivo interno mais rigoroso do que o SLA. Se o teu SLA promete 99,9%, o teu SLO pode visar 99,95%. O SLO dá-te uma margem — um error budget — antes de violar o SLA.
Se o teu SLO for 99,95% numa janela de 30 dias, tens aproximadamente 21 minutos de downtime permitido por mês. Quando estás dentro do orçamento, lança funcionalidades agressivamente. Quando o estás a consumir, abranda e prioriza a fiabilidade.
Porque importa para o plantão: os teus engenheiros de plantão devem conhecer os SLOs que estão a defender e o estado atual do error budget. "Temos 14 minutos de orçamento restantes este mês" cria urgência. "Mantém o sistema a funcionar" é vago o suficiente para não ter significado.
Padrões de Rotação para Equipas Pequenas
O erro mais comum com o plantão é torná-lo demasiado oneroso para os indivíduos. Eis o que funciona para equipas de 5-8 engenheiros, o tamanho típico em startups:
Rotação semanal, um único responsável primário. Uma pessoa gere todos os alertas durante uma semana (de segunda a segunda). Simples e eficaz com pessoas suficientes na rotação.
A rotação mínima viável é de 4 pessoas. Menos de 4 significa que cada pessoa está de plantão mais de 25% do tempo — insustentável. Com 5-6, obtens um confortável cadência de uma semana em cinco.
Follow-the-sun para equipas distribuídas. Os engenheiros na Europa cobrem 08:00-20:00 CET, as Américas cobrem o resto. Ninguém perde sono. Esta é uma das vantagens reais das equipas distribuídas.
Plantão secundário como escalada. Se o primário não conseguir resolver em 30-60 minutos, escala para o secundário — alguém com conhecimento mais profundo do sistema. Faz rodar ambos os papéis.
Regra absoluta: não se espera que a pessoa de plantão faça o trabalho normal do sprint à mesma capacidade. Estar de plantão significa ser interrompível. Se também esperas que feche 8 story points, estás a prepará-los para fazer ambas as coisas mal.
A Linha de Base das Ferramentas
Não precisas de um investimento massivo em ferramentas, mas precisas dos básicos:
Alertas e notificações: PagerDuty ou Opsgenie. Gerem o roteamento de alertas, políticas de escalada, horários e substituições de plantão. O PagerDuty é o padrão da indústria. O Opsgenie (agora parte da Atlassian) é uma alternativa sólida e mais barata. Não dependas de notificações do Slack ou email para alertas. As pessoas silenciam o Slack. As pessoas perdem emails. Um telefonema às 3 da manhã do PagerDuty não é ignorado.
Runbooks: Para cada alerta que chama alguém, deve haver um runbook. Um runbook é um documento que responde a: O que significa este alerta? Qual é a causa provável? Quais são as primeiras 3 coisas a verificar? Como o mitigos? Onde estão os logs e os dashboards? Um runbook transforma uma sessão de pânico de 45 minutos num diagnóstico de 10 minutos. Guarda-os no teu wiki, liga-os diretamente no alerta.
Página de estado: Statuspage (Atlassian), Instatus ou mesmo uma página estática simples. Quando algo está em baixo, os teus clientes devem saber pela tua página de estado, não por tentar usar o produto e falhar. O engenheiro de plantão deve conseguir atualizar a página de estado em menos de um minuto.
Canal de incidentes: Um canal Slack dedicado (ou equivalente) criado automaticamente para cada incidente. Toda a comunicação sobre o incidente acontece lá. Sem DMs, sem threads paralelas. Isto cria uma linha de tempo automática inestimável para o postmortem.
Postmortems Sem Culpa: Como Fazer Um Verdadeiro
"Postmortem sem culpa" tornou-se um buzzword que muitas equipas afirmam praticar e poucas praticam de facto. Eis como é um verdadeiro:
Timing: Dentro de 48 horas após a resolução. Espera uma semana e as pessoas esquecem os detalhes.
Participantes: Todos os envolvidos no incidente, mais quem quiser aprender.
Estrutura:
- Reconstrução da linha de tempo. O que aconteceu, em que ordem, desde o primeiro sinal até à resolução.
- Análise da causa raiz. Não "quem se enganou" mas "o que no sistema permitiu que isto acontecesse?" Um erro humano nunca é a causa raiz — é o sistema que o deixou chegar à produção.
- Fatores contribuintes. O que tornou a deteção lenta? O que tornou a resolução difícil?
- Elementos de ação. Concretos, atribuídos, com datas limite. "Melhorar o monitoramento" não é um elemento de ação. "Adicionar um alerta na taxa de erros de pagamento que exceda 2% durante 5 minutos, atribuído à Sofia, prazo 15 de setembro" é.
O elemento cultural crítico: ninguém recebe punição por incidentes. Se as pessoas temem a culpa, escondem informação. Se escondem informação, não podes aprender. Se não podes aprender, os incidentes repetem-se.
Compensar o Plantão Adequadamente
Esta é a causa pela qual sempre lutarei: se não compensas os engenheiros de plantão, não tens uma rotação — tens exploração.
Estar de plantão limita o teu tempo pessoal. Não podes ir acampar sem cobertura. Mantens o laptop acessível. Fingir que é "apenas parte do trabalho" é como perdes as tuas melhores pessoas.
Modelos de compensação que funcionam:
- Subsídio fixo por turno de plantão. 200-500 EUR por semana, independentemente de receberes alertas.
- Bónus por incidente. Compensação adicional por respostas reais fora do horário laboral.
- Tempo livre compensatório. Alerta às 3 da manhã durante 2 horas? Meio dia livre no dia seguinte. Inegociável.
- Combinação. Subsídio + tempo livre compensatório é o modelo mais comum e mais equitativo.
O que importa é que seja explícito, no contrato de trabalho e aplicado de forma consistente.
Sinais de que a Tua Cultura de Plantão Está Quebrada
Se algum destes te soa familiar, tens trabalho a fazer:
- As pessoas temem as semanas de plantão. Não uma leve irritação — verdadeiro medo. Mencionam-no nas 1:1 e trocam turnos constantemente.
- A mesma pessoa recebe sempre os alertas. Silo de conhecimento ou alertas mal configurados — de qualquer forma, é insustentável.
- Os incidentes repetem-se. A mesma falha de poucas em poucas semanas. Os elementos de ação do postmortem nunca são priorizados.
- Sem compensação ou reconhecimento. O plantão é esperado mas invisível.
- O plantão é usado como praxe. Novos engenheiros entram no plantão antes de entenderem o sistema.
- Não há runbooks. Cada incidente é uma investigação fresca do zero.
Tudo isto é corrigível. Requer uma liderança que tome a saúde operacional tão a sério quanto a entrega de funcionalidades.
Na Conectia, os engenheiros sénior que integramos nas tuas equipas já viveram culturas de plantão boas e terríveis. Trazem maturidade operacional — escrevendo runbooks, configurando alertas adequados, construindo a automatização que previne incidentes em vez de apenas responder a eles. Quando a tua equipa tem pessoas que tratam a fiabilidade em produção como um ofício, o plantão deixa de ser um fardo e torna-se uma parte normal e bem gerida da vida de engenharia.
Precisas de engenheiros que construam sistemas fiáveis, não apenas funcionalidades? Fala com um CTO — os nossos engenheiros sénior LATAM trazem a maturidade operacional que transforma o plantão de uma obrigação temida numa prática sustentável.


