Desafios

Projetar uma Arquitetura que Escale de 1.000 a 100.000 Usuarios

Por Marc Molas·21 de março de 2024·10 min de leitura

"Premature optimization is the root of all evil." A frase de Knuth todo mundo repete. Mas existe uma variante que ninguem cita: a ignorancia prematura sobre escalabilidade e igualmente perigosa.

O objetivo nao e construir para 100.000 usuarios desde o dia um. Isso e over-engineering. O objetivo e nao tomar decisoes a 1.000 usuarios que tornem impossivel chegar a 100.000 sem reescrever tudo do zero.

Ja vi startups que gastam tres meses projetando uma arquitetura de microsservicos para um produto que ainda nao tem seu primeiro cliente. E ja vi startups que chegam a 10.000 usuarios e precisam parar o desenvolvimento de features por dois meses porque o banco de dados esta morrendo e a arquitetura nao permite escalar horizontalmente.

Os dois extremos sao evitaveis. Aqui vai um mapa realista do que voce precisa em cada fase.

Fase 1: De 0 a 1.000 usuarios -- O monolito bem feito

Nessa fase, sua prioridade e o produto, nao a infraestrutura. Voce precisa validar que o que esta construindo faz sentido, iterar rapido e nao gastar energia com problemas que ainda nao tem.

A arquitetura correta aqui e simples:

Um monolito. Rails, Django, Express, Laravel, Next.js. O que seu time conhecer melhor. Um unico repositorio, um unico deploy.
PostgreSQL. Provavelmente a decisao de banco de dados mais segura que voce pode tomar. Suporta JSON, full-text search, transacoes ACID, e escala muito bem ate centenas de milhares de registros com bons indices.
Um servidor. Um VPS na Hetzner, uma instancia na AWS, um dyno no Heroku. Um unico servidor com sua aplicacao e seu banco de dados.
Deploy simples. Git push, CI/CD basico com GitHub Actions ou GitLab CI. Sem containers se voce nao precisar deles.

O que voce SIM deve fazer bem desde o inicio:

Aplicacao stateless. Seu servidor de aplicacao nao deve guardar estado em memoria nem em disco. As sessoes vao no banco de dados ou no Redis, os arquivos vao para o S3. Isso e critico porque quando voce precisar adicionar um segundo servidor, nao pode ter estado local.
Indices no banco de dados. Cada query que filtra ou ordena precisa de um indice. Nao e otimizacao prematura, e higiene basica. Uma query sem indice que leva 50ms com 100 registros leva 5 segundos com 100.000.
Separar logica de negocio da camada de apresentacao. Mesmo sendo um monolito, estruture seu codigo de forma que no dia em que precisar de uma API para um app mobile, voce nao tenha que reescrever sua logica de negocio.

Fase 2: De 1.000 a 10.000 usuarios -- As primeiras otimizacoes

Aqui voce comeca a notar os primeiros gargalos. As paginas demoram mais para carregar, o banco de dados comeca a sofrer em certas queries, e os processos longos bloqueiam requests.

O que voce precisa adicionar:

Caching com Redis. Nao faca cache de tudo de uma vez. Identifique os endpoints mais lentos ou mais frequentes e faca cache das respostas. Uma pagina de produto que e gerada com 5 queries ao banco de dados e servida 10.000 vezes por dia e candidata perfeita para cache.
CDN para assets estaticos. Imagens, CSS, JavaScript. Cloudflare, CloudFront, Bunny CDN. Isso reduz a carga do seu servidor e melhora os tempos de carregamento para usuarios em diferentes regioes.
Read replicas do banco de dados. Se sua aplicacao e read-heavy (a maioria e), configure uma replica de leitura do PostgreSQL. As escritas vao para o primario, as leituras vao para a replica. Isso duplica sua capacidade de leitura sem tocar uma linha de codigo da aplicacao.
Background jobs. Tudo que nao precisa de resposta imediata sai do ciclo request/response. Enviar emails, processar imagens, gerar relatorios, sincronizar com terceiros. Celery se usa Python, Sidekiq se usa Ruby, BullMQ se usa Node.js.

O erro mais comum nessa fase: nao monitorar. Se voce nao mede, nao consegue otimizar. Instale algo que te de visibilidade sobre tempos de resposta, queries lentas e uso de recursos. Nao precisa de nada caro: as metricas basicas do seu provedor de hosting mais uma ferramenta como Grafana com Prometheus sao suficientes.

Fase 3: De 10.000 a 100.000 usuarios -- Escalar horizontalmente

Aqui e onde sua arquitetura demonstra se as decisoes iniciais foram boas. Se sua aplicacao e stateless e seu banco de dados tem bons indices, essa transicao e gerenciavel. Se nao, prepare-se para semanas de refactoring.

O que voce precisa:

Load balancer + multiplos servidores de aplicacao. Nginx, HAProxy, ou o balanceador do seu provedor cloud. Se sua aplicacao e stateless (como deveria ser desde a Fase 1), isso e adicionar servidores e apontar o balanceador para eles.
Otimizacao seria do banco de dados. Connection pooling com PgBouncer. Revisao de queries lentas com EXPLAIN ANALYZE. Indices compostos para as queries mais frequentes. Considerar materializar views para relatorios pesados.
Separar servicos pesados. Se voce tem um processo que consome muitos recursos (processamento de imagens, geracao de PDFs, calculos complexos), mova-o para um servico separado. Nao e um microsservico no sentido arquitetonico, e simplesmente tirar uma carga pesada do processo principal.
Message queues para processamento assincrono. RabbitMQ ou Amazon SQS. Para comunicacao entre servicos e para absorver picos de carga. Um spike de trafego nao deveria derrubar seu sistema se os processos nao criticos estao em uma fila.
Autoscaling. Configure regras para que seus servidores de aplicacao escalem automaticamente com base em CPU ou numero de requests. Na AWS, isso e um Auto Scaling Group. No Kubernetes, um Horizontal Pod Autoscaler (mas provavelmente voce ainda nao precisa de Kubernetes).

As decisoes que importam desde o dia um

Se eu tivesse que resumir em uma lista o que voce deve fazer bem desde o inicio, seria isso:

Design stateless. Sem estado no servidor de aplicacao. Sessoes no Redis ou banco de dados, arquivos em armazenamento externo.
Armazenamento externo de sessoes. Nunca guarde sessoes na memoria do processo. Quando escalar para multiplos servidores, um usuario poderia ir a um servidor diferente em cada request.
Estrategia de indices. Cada query que use WHERE ou ORDER BY precisa de um indice. Revise periodicamente com o query planner.
Separar padroes de leitura e escrita. Mesmo sem read replicas ainda, estruture seu codigo para que seja facil apontar leituras para uma conexao diferente quando chegar a hora.
Migracoes reversiveis. Cada mudanca no esquema do banco de dados deve poder ser revertida. Isso nao e sobre escalabilidade diretamente, mas evita downtime quando algo da errado em producao.

O que voce NAO deve fazer

Isso e tao importante quanto o anterior:

Nao faca sharding do banco de dados com 5.000 usuarios. O sharding e complexo, introduz uma quantidade enorme de complexidade operacional, e provavelmente voce nao vai precisar ate centenas de milhares ou milhoes de usuarios. PostgreSQL bem configurado aguenta muito mais do que voce imagina.
Nao introduza Kubernetes com 10.000 usuarios. K8s resolve problemas de orquestracao em escala. Se voce tem 3-5 servidores, Docker Compose ou um simples load balancer com instancias e mais que suficiente. A complexidade operacional do Kubernetes nao se justifica ate voce ter dezenas de servicos.
Nao construa microsservicos antes de ter 3 times. Microsservicos sao uma estrategia organizacional, nao tecnica. Se um unico time mantem tudo, microsservicos so adicionam latencia de rede, complexidade de deploy e dor de debugging.
Nao otimize sem medir. Cada otimizacao deve estar respaldada por dados. "Acho que o banco de dados esta lento" nao e suficiente. "Essa query leva 800ms e e executada 50.000 vezes por dia" sim.

O checklist antes de cada fase de crescimento

Antes de passar para a proxima fase, verifique:

Voce tem monitoracao que diga onde estao os gargalos reais?
Sua aplicacao pode rodar em multiplas instancias sem problemas?
As queries mais frequentes tem indices apropriados?
Os processos pesados estao fora do ciclo request/response?
Voce consegue fazer deploy sem downtime?
Voce tem backups automaticos e ja testou restaura-los?

O valor da experiencia em escalabilidade

A diferenca entre escalar com dor e escalar com confianca e ter passado pelo processo antes. Um arquiteto que ja escalou um sistema de 1.000 a 100.000 usuarios sabe quais padroes importam em cada fase e, mais importante, quais nao importam ainda.

Na Conectia, os engenheiros senior que conectamos com startups europeias ja passaram por essas fases em produtos reais. Nao vao propor Kubernetes para seu MVP nem microsservicos para seu time de quatro pessoas. Vao te ajudar a tomar as decisoes certas para sua fase atual, deixando a porta aberta para a proxima.

Porque escalar nao e um evento. E uma serie de decisoes incrementais. E cada uma e muito mais facil quando alguem no seu time ja sabe qual e a proxima.

Seu produto esta crescendo e voce nao sabe se sua arquitetura vai aguentar a proxima ordem de grandeza? Fale com um CTO -- conectamos com arquitetos que ja escalaram sistemas como o seu.

Projetar uma Arquitetura que Escale de 1.000 a 100.000 Usuarios

Fase 1: De 0 a 1.000 usuarios -- O monolito bem feito

Fase 2: De 1.000 a 10.000 usuarios -- As primeiras otimizacoes

Fase 3: De 10.000 a 100.000 usuarios -- Escalar horizontalmente

As decisoes que importam desde o dia um

O que voce NAO deve fazer

O checklist antes de cada fase de crescimento

O valor da experiencia em escalabilidade

Artigos Relacionados

Product-Market Fit Técnico: Por Que Sua Arquitetura Deve Evoluir com Seu Produto

API-First: Por Que sua Startup Deveria Pensar em APIs desde o Primeiro Dia

DevOps Mínimo Viável: O que Toda Startup Precisa Antes de Ir para Produção

Pronto para construir a sua equipa de engenharia?