La gestion de la capacité

February 6, 2023 • 610 words • 3 min

C’est quoi la gestion de la capacité ?

La gestion de la capacité, c’est s’assurer que l’infrastructure IT peut répondre aux besoins actuels et futurs. En clair : éviter de se retrouver un lundi matin avec un serveur saturé et 200 utilisateurs au chômage technique.

Pourquoi c’est important ?

Parce que les pannes les plus sournoises sont celles qu’on aurait pu prévoir :

Le disque plein à 100% qui bloque la base de données
Le serveur qui rame parce que la RAM est saturée depuis 3 semaines
Le lien réseau qui sature tous les jours à 9h quand tout le monde se connecte

Ces incidents ne sont pas des fatalités. Ce sont des échecs de gestion de la capacité.

Les trois dimensions de la capacité

1. Capacité des composants

C’est le niveau technique : CPU, RAM, disque, bande passante.

Questions à se poser :

Quel est le taux d’utilisation actuel ?
Quelle est la tendance ? (ça monte ? ça stagne ?)
Quel est le seuil critique ?

2. Capacité des services

C’est le niveau applicatif : est-ce que le service rendu est performant ?

Le temps de réponse de l’application est-il acceptable ?
Combien d’utilisateurs simultanés peut-on supporter ?
Y a-t-il des goulots d’étranglement ?

3. Capacité métier

C’est le niveau business : quels sont les besoins à venir ?

L’entreprise recrute 50 personnes l’an prochain ?
Un nouveau site ouvre dans 6 mois ?
Le volume de données double chaque année ?

Mettre en place une surveillance

On ne peut pas gérer ce qu’on ne mesure pas. La première étape est donc de surveiller les ressources critiques.

Métriques essentielles

Ressource	Métriques	Seuil d’alerte typique
CPU	% utilisation	> 80% en continu
RAM	% utilisation	> 85%
Disque	% espace utilisé	> 80%
Réseau	% bande passante	> 70%

Outils de supervision

Prometheus + Grafana : monitoring moderne, flexible
Zabbix : complet, adapté aux grandes infrastructures
PRTG : simple, interface claire (mais propriétaire)
Netdata : léger, temps réel, idéal pour commencer

Planifier la capacité

Surveiller c’est bien, anticiper c’est mieux.

Analyse des tendances

Regarder l’évolution sur plusieurs mois :

Le stockage augmente de 5% par mois → dans 4 mois on est plein
La RAM est à 70% mais stable → pas d’urgence
Le CPU sature tous les premiers du mois (clôture comptable) → prévoir du scaling ou optimiser

Plan de capacité

Un plan de capacité simple peut ressembler à ça :

Ressource	Actuel	Tendance	Seuil critique	Action prévue	Échéance
Stockage SAN	78%	+5%/mois	90%	Ajout 2 To	Mars
RAM serveur web	85%	stable	90%	Surveillance	-
CPU serveur BDD	60%	+2%/mois	80%	Aucune	-

Les erreurs classiques

Pas de monitoring : on découvre le problème quand ça plante
Alertes ignorées : “oui, je sais, ça fait 3 semaines que c’est rouge”
Seuils mal calibrés : alertes à 50% → trop de bruit → on ignore tout
Vision court terme : on ajoute du disque quand c’est plein, jamais avant
Oublier les pics : la moyenne est bonne, mais les lundis matin c’est l’enfer

Le cloud change-t-il la donne ?

Oui et non.

Oui : le scaling est plus facile (on ajoute des ressources à la demande).

Non : il faut toujours surveiller et anticiper. Et le cloud, ça coûte cher si on ne maîtrise pas la consommation. “Capacité infinie” ne veut pas dire “budget infini”.

En résumé

Surveiller les ressources critiques (CPU, RAM, disque, réseau)
Définir des seuils d’alerte réalistes
Analyser les tendances régulièrement (mensuel au minimum)
Anticiper les besoins futurs
Documenter les décisions et les actions prévues

La gestion de la capacité, c’est 90% d’anticipation et 10% de réaction. L’inverse, c’est de la gestion de crise permanente.