Skip to main content

La gestion de la capacité

C’est quoi la gestion de la capacité ?

La gestion de la capacité, c’est s’assurer que l’infrastructure IT peut répondre aux besoins actuels et futurs. En clair : éviter de se retrouver un lundi matin avec un serveur saturé et 200 utilisateurs au chômage technique.

Pourquoi c’est important ?

Parce que les pannes les plus sournoises sont celles qu’on aurait pu prévoir :

  • Le disque plein à 100% qui bloque la base de données
  • Le serveur qui rame parce que la RAM est saturée depuis 3 semaines
  • Le lien réseau qui sature tous les jours à 9h quand tout le monde se connecte

Ces incidents ne sont pas des fatalités. Ce sont des échecs de gestion de la capacité.

Les trois dimensions de la capacité

1. Capacité des composants

C’est le niveau technique : CPU, RAM, disque, bande passante.

Questions à se poser :

  • Quel est le taux d’utilisation actuel ?
  • Quelle est la tendance ? (ça monte ? ça stagne ?)
  • Quel est le seuil critique ?

2. Capacité des services

C’est le niveau applicatif : est-ce que le service rendu est performant ?

  • Le temps de réponse de l’application est-il acceptable ?
  • Combien d’utilisateurs simultanés peut-on supporter ?
  • Y a-t-il des goulots d’étranglement ?

3. Capacité métier

C’est le niveau business : quels sont les besoins à venir ?

  • L’entreprise recrute 50 personnes l’an prochain ?
  • Un nouveau site ouvre dans 6 mois ?
  • Le volume de données double chaque année ?

Mettre en place une surveillance

On ne peut pas gérer ce qu’on ne mesure pas. La première étape est donc de surveiller les ressources critiques.

Métriques essentielles

RessourceMétriquesSeuil d’alerte typique
CPU% utilisation> 80% en continu
RAM% utilisation> 85%
Disque% espace utilisé> 80%
Réseau% bande passante> 70%

Outils de supervision

  • Prometheus + Grafana : monitoring moderne, flexible
  • Zabbix : complet, adapté aux grandes infrastructures
  • PRTG : simple, interface claire (mais propriétaire)
  • Netdata : léger, temps réel, idéal pour commencer

Planifier la capacité

Surveiller c’est bien, anticiper c’est mieux.

Analyse des tendances

Regarder l’évolution sur plusieurs mois :

  • Le stockage augmente de 5% par mois → dans 4 mois on est plein
  • La RAM est à 70% mais stable → pas d’urgence
  • Le CPU sature tous les premiers du mois (clôture comptable) → prévoir du scaling ou optimiser

Plan de capacité

Un plan de capacité simple peut ressembler à ça :

RessourceActuelTendanceSeuil critiqueAction prévueÉchéance
Stockage SAN78%+5%/mois90%Ajout 2 ToMars
RAM serveur web85%stable90%Surveillance-
CPU serveur BDD60%+2%/mois80%Aucune-

Les erreurs classiques

  • Pas de monitoring : on découvre le problème quand ça plante
  • Alertes ignorées : “oui, je sais, ça fait 3 semaines que c’est rouge”
  • Seuils mal calibrés : alertes à 50% → trop de bruit → on ignore tout
  • Vision court terme : on ajoute du disque quand c’est plein, jamais avant
  • Oublier les pics : la moyenne est bonne, mais les lundis matin c’est l’enfer

Le cloud change-t-il la donne ?

Oui et non.

Oui : le scaling est plus facile (on ajoute des ressources à la demande).

Non : il faut toujours surveiller et anticiper. Et le cloud, ça coûte cher si on ne maîtrise pas la consommation. “Capacité infinie” ne veut pas dire “budget infini”.

En résumé

  1. Surveiller les ressources critiques (CPU, RAM, disque, réseau)
  2. Définir des seuils d’alerte réalistes
  3. Analyser les tendances régulièrement (mensuel au minimum)
  4. Anticiper les besoins futurs
  5. Documenter les décisions et les actions prévues

La gestion de la capacité, c’est 90% d’anticipation et 10% de réaction. L’inverse, c’est de la gestion de crise permanente.