Tout dossier de maintenance se doit de contenir des indicateurs techniques afin de témoigner du niveau de performance et de fiabilité. Ces indicateurs, calibrés sur la réalité du parc concerné, doivent être sélectionnés selon la pertinence qu’ils offrent pour la prise de décision. Inutile de noyer votre lecteur sous des milliers de lignes de logs ou d’états système dont la lecture est ardue et la valeur discutable. Mieux vaut s’en tenir aux métriques qui permettront de comprendre rapidement comment se comporte l’infrastructure, et dans quelle mesure les interventions ont été efficaces.
Le taux de disponibilité
Le taux de disponibilité (ou uptime) est souvent le premier indicateur cité dans tout dossier de maintenance. Il mesure le pourcentage de temps durant lequel un système, un service ou un équipement est opérationnel. Par exemple, si un serveur doit être joignable 24h/24 sur un mois (720 heures) et qu’il connaît 2 heures d’interruption, son taux de disponibilité sera alors de (720 - 2) ÷ 720 × 100, soit approximativement 99,72 %.
Communiquer cet indicateur est essentiel, car il montre la fiabilité globale des équipements. Plus il est proche de 100 %, plus la qualité de service est jugée excellente. À l’inverse, un taux inférieur à 95 % pourrait être jugé préoccupant, surtout si l’on parle d’une ressource critique pour l’entreprise (serveur de messagerie, site e-commerce, application interne de gestion). Un taux de disponibilité élevé reflète généralement un bon niveau d’entretien, de surveillance proactive et de correctifs préventifs installés à temps.
Le temps moyen entre deux pannes (MTBF)
Le MTBF (Mean Time Between Failures, ou temps moyen entre pannes) est un indicateur qui permet à la fois de juger la fiabilité technique et de planifier la maintenance préventive. Concrètement, on calcule le MTBF en divisant la période d’observation (exemple : un an) par le nombre total de pannes survenues durant cette même période. Si, en un an, un équipement recense 4 pannes, et qu’il a fonctionné 365 jours, on aura un MTBF de 91,25 jours environ (365 ÷ 4).
Le MTBF est précieux pour décider, entre autres, de la périodicité de remplacement des pièces d’usure. Savoir qu’une machine tombe en panne en moyenne tous les 40 jours conduit à intensifier la maintenance préventive et à envisager un remplacement plus rapide si les dysfonctionnements génèrent des coûts trop élevés. Dans un courrier de présentation, vous pouvez détailler l’évolution historique du MTBF (sur trois ans, par exemple), afin de montrer l’efficacité des mesures correctives entreprises au fil du temps.
Le temps moyen de réparation (MTTR)
Autre indicateur très utilisé : le MTTR (Mean Time To Repair, ou temps moyen de réparation). Cet indicateur se focalise sur la durée des interventions requises pour remettre un système en fonction une fois la panne détectée. Plus le MTTR est court, plus on considère que le dispositif de support et le processus de maintenance sont efficients.
Si votre dossier doit être lu par des managers non spécialisés, n’oubliez pas de préciser les causes possibles d’allongement du MTTR (attente de pièces, manque de disponibilité d’un technicien, besoin de validation d’un fournisseur). Cela aidera votre lecteur à comprendre pourquoi, parfois, un incident peut s’éterniser. Dans certains cas, un MTTR élevé peut pointer un souci logistique ou organisationnel (pas de stock de pièces, procédure complexe, équipe sous-dimensionnée). Bien mis en exergue, cet indicateur peut justifier une demande de ressources supplémentaires ou l’ajustement des processus pour améliorer le temps de réponse.
Le taux de tickets résolus à temps
Selon vos accords de niveau de service (SLA), il se peut que vous définissiez pour chaque incident un délai cible de résolution (par exemple, 4 heures pour un incident critique, 24 heures pour un incident de priorité moyenne). Le taux de tickets résolus à temps rapporte le nombre d’incidents clôturés avant expiration du délai sur le nombre total d’incidents. Si vous résolvez 80 incidents dans les temps sur 100, vous obtenez 80 % de tickets respectant le SLA.
Dans une perspective de maintenance, ce taux est un bon indicateur de la capacité opérationnelle de l’équipe support. Il révèle à quel point on tient les promesses en termes de qualité de service. Si le taux stagne à 50 %, il faudra certainement investiguer : manque de formation, trop de demandes simultanées, mauvaise priorisation ? Communiquer ce chiffre dans un dossier de maintenance est l’occasion de mettre en valeur les efforts faits pour se conformer aux objectifs de service, ou d’expliquer pourquoi on peine à atteindre les cibles fixées.
Le pourcentage d’incidents majeurs
Tous les incidents n’ont pas la même gravité. Certains se soldent par un simple ralentissement, d’autres causent un blocage total d’un système critique. Il est souvent très utile de distinguer les pannes en plusieurs catégories : mineures, majeures et critiques. Le pourcentage d’incidents majeurs reflète la part d’interruptions sérieuses parmi les problèmes rencontrés.
Inclure cet indicateur dans votre courrier aide à évaluer le risque opérationnel. Par exemple, si vous enregistrez 100 incidents dans une période, dont 5 critiques et 15 majeurs, vous savez que 20 % des pannes ont généré un impact significatif. Ce type de ratio permet de mieux cerner les priorités : faut-il renforcer la maintenance préventive sur les composants qui, lorsqu’ils lâchent, immobilisent toute l’infrastructure ? Faut-il investir dans des solutions de contournement ou de redondance ? En mettant ce pourcentage en avant, vous donnez des clés pour hiérarchiser les actions.