Défis

Concevoir une Architecture qui Passe de 1 000 a 100 000 Utilisateurs

Par Marc Molas·21 mars 2024·10 min de lecture

"Premature optimization is the root of all evil." Tout le monde cite Knuth. Mais personne ne cite la variante : l'ignorance prematuree en matiere de scalabilite est tout aussi dangereuse.

L'objectif n'est pas de construire pour 100 000 utilisateurs des le premier jour. C'est de la sur-ingenierie. L'objectif est de ne pas prendre de decisions a 1 000 utilisateurs qui rendent impossible d'atteindre 100 000 sans tout reecrire de zero.

J'ai vu des startups passer trois mois a concevoir une architecture de microservices pour un produit qui n'a pas encore son premier client. Et j'ai vu des startups atteindre 10 000 utilisateurs et devoir arreter le developpement de features pendant deux mois parce que leur base de donnees agonise et que leur architecture ne permet pas de scaler horizontalement.

Les deux extremes sont evitables. Voici une feuille de route realiste de ce dont vous avez besoin a chaque phase.

Phase 1 : De 0 a 1 000 utilisateurs -- Le monolithe bien fait

A cette etape, votre priorite est le produit, pas l'infrastructure. Vous devez valider que ce que vous construisez a du sens, iterer rapidement et ne pas gaspiller d'energie sur des problemes que vous n'avez pas encore.

L'architecture appropriee ici est simple :

Un monolithe. Rails, Django, Express, Laravel, Next.js. Ce que votre equipe maitrise le mieux. Un seul repository, un seul deploiement.
PostgreSQL. Probablement la decision de base de donnees la plus sure que vous puissiez prendre. Supporte le JSON, la recherche full-text, les transactions ACID, et scale tres bien jusqu'a des centaines de milliers d'enregistrements avec de bons index.
Un serveur. Un VPS chez Hetzner, une instance AWS, un dyno Heroku. Un seul serveur avec votre application et votre base de donnees.
Deploiement simple. Git push, CI/CD basique avec GitHub Actions ou GitLab CI. Pas de conteneurs si vous n'en avez pas besoin.

Ce que vous DEVEZ bien faire des le depart :

Application stateless. Votre serveur applicatif ne doit pas stocker d'etat en memoire ni sur disque. Les sessions vont en base de donnees ou dans Redis, les fichiers vont sur S3. C'est critique car quand vous aurez besoin d'ajouter un second serveur, vous ne pouvez pas avoir d'etat local.
Index en base de donnees. Chaque requete qui filtre ou trie a besoin d'un index. Ce n'est pas de l'optimisation prematuree, c'est de l'hygiene de base. Une requete sans index qui prend 50ms avec 100 enregistrements prendra 5 secondes avec 100 000.
Separer la logique metier de la couche de presentation. Meme si c'est un monolithe, structurez votre code pour que le jour ou vous aurez besoin d'une API pour une app mobile, vous n'ayez pas a reecrire votre logique metier.

Phase 2 : De 1 000 a 10 000 utilisateurs -- Les premieres optimisations

C'est ici que vous commencez a sentir les premiers goulots d'etranglement. Les pages mettent plus de temps a charger, la base de donnees commence a souffrir sur certaines requetes, et les processus longs bloquent les requests.

Ce que vous devez ajouter :

Caching avec Redis. Ne cachez pas tout d'un coup. Identifiez les endpoints les plus lents ou les plus frequents et cachez leurs reponses. Une page produit generee avec 5 requetes en base et servie 10 000 fois par jour est une candidate parfaite pour le cache.
CDN pour les assets statiques. Images, CSS, JavaScript. Cloudflare, CloudFront, Bunny CDN. Cela reduit la charge de votre serveur et ameliore les temps de chargement pour les utilisateurs dans differentes regions.
Read replicas de base de donnees. Si votre application est read-heavy (la plupart le sont), configurez une replique de lecture PostgreSQL. Les ecritures vont au primaire, les lectures vont a la replique. Cela double votre capacite de lecture sans toucher une seule ligne de code applicatif.
Background jobs. Tout ce qui ne necessite pas de reponse immediate sort du cycle request/response. Envoi d'emails, traitement d'images, generation de rapports, synchronisation avec des tiers. Celery si vous utilisez Python, Sidekiq si vous utilisez Ruby, BullMQ si vous utilisez Node.js.

L'erreur la plus courante a cette phase : ne pas monitorer. Si vous ne mesurez pas, vous ne pouvez pas optimiser. Installez quelque chose qui vous donne de la visibilite sur les temps de reponse, les requetes lentes et l'utilisation des ressources. Pas besoin de quelque chose de couteux : les metriques de base de votre hebergeur plus un outil comme Grafana avec Prometheus suffisent.

Phase 3 : De 10 000 a 100 000 utilisateurs -- Scaler horizontalement

C'est ici que votre architecture montre si les decisions prises tot etaient les bonnes. Si votre application est stateless et que votre base de donnees a de bons index, cette transition est gerable. Sinon, preparez-vous a des semaines de refactoring.

Ce dont vous avez besoin :

Load balancer + plusieurs serveurs applicatifs. Nginx, HAProxy, ou le load balancer de votre fournisseur cloud. Si votre application est stateless (comme elle devrait l'etre depuis la Phase 1), c'est simplement ajouter des serveurs et pointer le load balancer dessus.
Optimisation serieuse de la base de donnees. Connection pooling avec PgBouncer. Revision des requetes lentes avec EXPLAIN ANALYZE. Index composes pour les requetes les plus frequentes. Envisager de materialiser des vues pour les rapports lourds.
Separer les services lourds. Si vous avez un processus gourmand en ressources (traitement d'images, generation de PDFs, calculs complexes), deplacez-le dans un service separe. Ce n'est pas un microservice au sens architectural, c'est simplement sortir une charge lourde du processus principal.
Message queues pour le traitement asynchrone. RabbitMQ ou Amazon SQS. Pour la communication entre services et pour absorber les pics de charge. Un spike de trafic ne devrait pas faire tomber votre systeme si les processus non critiques sont dans une file d'attente.
Autoscaling. Configurez des regles pour que vos serveurs applicatifs scalent automatiquement en fonction du CPU ou du nombre de requests. Sur AWS, c'est un Auto Scaling Group. Sur Kubernetes, un Horizontal Pod Autoscaler (mais vous n'avez probablement pas encore besoin de Kubernetes).

Les decisions qui comptent des le premier jour

Si je devais resumer en une liste ce que vous devez bien faire des le depart, ce serait ceci :

Conception stateless. Aucun etat sur le serveur applicatif. Sessions dans Redis ou en base de donnees, fichiers dans un stockage externe.
Stockage externe des sessions. Ne stockez jamais les sessions en memoire du processus. Quand vous scalerez sur plusieurs serveurs, un utilisateur pourrait atterrir sur un serveur different a chaque requete.
Strategie d'index. Chaque requete utilisant WHERE ou ORDER BY a besoin d'un index. Revisez-le regulierement avec le query planner.
Separer les patterns de lecture et d'ecriture. Meme si vous n'avez pas encore de read replicas, structurez votre code pour qu'il soit facile de rediriger les lectures vers une connexion differente le moment venu.
Migrations reversibles. Chaque modification du schema de base de donnees doit pouvoir etre annulee. Ce n'est pas directement lie a la scalabilite, mais cela evite les downtimes quand quelque chose tourne mal en production.

Ce que vous ne devez PAS faire

C'est aussi important que ce qui precede :

Ne faites pas de sharding de base de donnees a 5 000 utilisateurs. Le sharding est complexe, introduit une quantite enorme de complexite operationnelle, et vous n'en aurez probablement pas besoin avant des centaines de milliers ou des millions d'utilisateurs. PostgreSQL bien configure gere bien plus que ce que vous croyez.
N'introduisez pas Kubernetes a 10 000 utilisateurs. K8s resout des problemes d'orchestration a grande echelle. Si vous avez 3 a 5 serveurs, Docker Compose ou un simple load balancer avec des instances suffit largement. La complexite operationnelle de Kubernetes ne se justifie pas avant d'avoir des dizaines de services.
Ne construisez pas de microservices avant d'avoir 3 equipes. Les microservices sont une strategie organisationnelle, pas technique. Si une seule equipe maintient tout, les microservices ne font qu'ajouter de la latence reseau, de la complexite de deploiement et des difficultes de debugging.
N'optimisez pas sans mesurer. Chaque optimisation doit etre etayee par des donnees. "Je crois que la base de donnees est lente" ne suffit pas. "Cette requete prend 800ms et s'execute 50 000 fois par jour" -- ca, c'est suffisant.

La checklist avant chaque phase de croissance

Avant de passer a la phase suivante, verifiez :

Avez-vous du monitoring qui vous indique ou sont les vrais goulots d'etranglement ?
Votre application peut-elle tourner sur plusieurs instances sans probleme ?
Les requetes les plus frequentes ont-elles des index adequats ?
Les processus lourds sont-ils en dehors du cycle request/response ?
Pouvez-vous deployer sans downtime ?
Avez-vous des backups automatiques et les avez-vous testes en restauration ?

La valeur de l'experience en scalabilite

La difference entre scaler avec douleur et scaler avec confiance, c'est d'avoir deja traverse le processus. Un architecte qui a deja fait passer un systeme de 1 000 a 100 000 utilisateurs sait quels patterns comptent a chaque phase et, plus important, lesquels n'ont pas encore d'importance.

Chez Conectia, les ingenieurs senior que nous connectons avec des startups europeennes ont traverse ces phases sur des produits reels. Ils ne vont pas vous proposer Kubernetes pour votre MVP ni des microservices pour votre equipe de quatre personnes. Ils vont vous aider a prendre les bonnes decisions pour votre phase actuelle, en laissant la porte ouverte pour la suivante.

Parce que scaler n'est pas un evenement. C'est une serie de decisions incrementales. Et chacune est bien plus facile quand quelqu'un dans votre equipe sait deja laquelle vient apres.

Votre produit se developpe et vous ne savez pas si votre architecture tiendra le prochain ordre de grandeur ? Parlez a un CTO -- nous vous connectons avec des architectes qui ont deja fait scaler des systemes comme le votre.

Concevoir une Architecture qui Passe de 1 000 a 100 000 Utilisateurs

Phase 1 : De 0 a 1 000 utilisateurs -- Le monolithe bien fait

Phase 2 : De 1 000 a 10 000 utilisateurs -- Les premieres optimisations

Phase 3 : De 10 000 a 100 000 utilisateurs -- Scaler horizontalement

Les decisions qui comptent des le premier jour

Ce que vous ne devez PAS faire

La checklist avant chaque phase de croissance

La valeur de l'experience en scalabilite

Articles Connexes

Product-Market Fit Technique : Pourquoi votre Architecture Doit Évoluer avec votre Produit

API-First : Pourquoi Votre Startup Devrait Penser APIs des le Premier Jour

DevOps Minimum Viable : Ce que Toute Startup Doit Avoir Avant d'Aller en Production

Prêt à construire votre équipe d'ingénierie ?