De nombreuses équipes d'ingénierie investissent massivement dans des outils de surveillance, de journalisation et de traçage, mais leur temps moyen de résolution (MTTR) reste obstinément élevé. Un récent article de blog tech chinois coupe à travers le bruit en arguant que le vrai goulot d'étranglement n'est pas un manque de données, mais un manque de processus clairs de propriété et d'escalade. L'auteur décrit un scénario courant : les tableaux de bord clignotent, les journaux montrent des erreurs, les graphes de trace sont rouges, et plusieurs personnes demandent : 'Est-ce un véritable incident ? Qui est d'astreinte ? À qui appartient ce service ?' Pendant ce temps, 15 minutes passent sans action décisive. L'article suggère que la solution réside dans de meilleurs runbooks, une propriété explicite des services et des chemins d'escalade prédéfinis, et non dans l'ajout d'un autre outil de surveillance. Cette idée est pertinente à l'échelle mondiale car elle aborde un point de douleur opérationnel universel. Pour les leaders techniques, le message est clair : avant d'acheter plus d'outils, investissez dans la définition de protocoles clairs de réponse aux incidents et assurez-vous que chaque service a un propriétaire désigné. Cette approche axée sur les processus peut réduire la MTTR plus efficacement que n'importe quel outil.
Une MTTR élevée est souvent un problème de coordination, pas d'outillage. Cette analyse explique pourquoi et quoi faire.