C’est quoi la gestion de la capacité ?
La gestion de la capacité, c’est s’assurer que l’infrastructure IT peut répondre aux besoins actuels et futurs. En clair : éviter de se retrouver un lundi matin avec un serveur saturé et 200 utilisateurs au chômage technique.
Pourquoi c’est important ?
Parce que les pannes les plus sournoises sont celles qu’on aurait pu prévoir :
- Le disque plein à 100% qui bloque la base de données
- Le serveur qui rame parce que la RAM est saturée depuis 3 semaines
- Le lien réseau qui sature tous les jours à 9h quand tout le monde se connecte
Ces incidents ne sont pas des fatalités. Ce sont des échecs de gestion de la capacité.
Les trois dimensions de la capacité
1. Capacité des composants
C’est le niveau technique : CPU, RAM, disque, bande passante.
Questions à se poser :
- Quel est le taux d’utilisation actuel ?
- Quelle est la tendance ? (ça monte ? ça stagne ?)
- Quel est le seuil critique ?
2. Capacité des services
C’est le niveau applicatif : est-ce que le service rendu est performant ?
- Le temps de réponse de l’application est-il acceptable ?
- Combien d’utilisateurs simultanés peut-on supporter ?
- Y a-t-il des goulots d’étranglement ?
3. Capacité métier
C’est le niveau business : quels sont les besoins à venir ?
- L’entreprise recrute 50 personnes l’an prochain ?
- Un nouveau site ouvre dans 6 mois ?
- Le volume de données double chaque année ?
Mettre en place une surveillance
On ne peut pas gérer ce qu’on ne mesure pas. La première étape est donc de surveiller les ressources critiques.
Métriques essentielles
| Ressource | Métriques | Seuil d’alerte typique |
|---|---|---|
| CPU | % utilisation | > 80% en continu |
| RAM | % utilisation | > 85% |
| Disque | % espace utilisé | > 80% |
| Réseau | % bande passante | > 70% |
Outils de supervision
- Prometheus + Grafana : monitoring moderne, flexible
- Zabbix : complet, adapté aux grandes infrastructures
- PRTG : simple, interface claire (mais propriétaire)
- Netdata : léger, temps réel, idéal pour commencer
Planifier la capacité
Surveiller c’est bien, anticiper c’est mieux.
Analyse des tendances
Regarder l’évolution sur plusieurs mois :
- Le stockage augmente de 5% par mois → dans 4 mois on est plein
- La RAM est à 70% mais stable → pas d’urgence
- Le CPU sature tous les premiers du mois (clôture comptable) → prévoir du scaling ou optimiser
Plan de capacité
Un plan de capacité simple peut ressembler à ça :
| Ressource | Actuel | Tendance | Seuil critique | Action prévue | Échéance |
|---|---|---|---|---|---|
| Stockage SAN | 78% | +5%/mois | 90% | Ajout 2 To | Mars |
| RAM serveur web | 85% | stable | 90% | Surveillance | - |
| CPU serveur BDD | 60% | +2%/mois | 80% | Aucune | - |
Les erreurs classiques
- Pas de monitoring : on découvre le problème quand ça plante
- Alertes ignorées : “oui, je sais, ça fait 3 semaines que c’est rouge”
- Seuils mal calibrés : alertes à 50% → trop de bruit → on ignore tout
- Vision court terme : on ajoute du disque quand c’est plein, jamais avant
- Oublier les pics : la moyenne est bonne, mais les lundis matin c’est l’enfer
Le cloud change-t-il la donne ?
Oui et non.
Oui : le scaling est plus facile (on ajoute des ressources à la demande).
Non : il faut toujours surveiller et anticiper. Et le cloud, ça coûte cher si on ne maîtrise pas la consommation. “Capacité infinie” ne veut pas dire “budget infini”.
En résumé
- Surveiller les ressources critiques (CPU, RAM, disque, réseau)
- Définir des seuils d’alerte réalistes
- Analyser les tendances régulièrement (mensuel au minimum)
- Anticiper les besoins futurs
- Documenter les décisions et les actions prévues
La gestion de la capacité, c’est 90% d’anticipation et 10% de réaction. L’inverse, c’est de la gestion de crise permanente.