多くのエンジニアリングチームは監視、ログ、トレーシングツールに多額の投資をしているが、平均解決時間(MTTR)は依然として高いままである。中国のテックブログの記事は、真のボトルネックはデータ不足ではなく、明確な所有権とエスカレーションプロセスの欠如であると主張している。著者はよくあるシナリオを説明している:ダッシュボードが点滅し、ログにエラーが表示され、トレースグラフが赤くなり、複数の人が「これは本当のインシデントか?誰がオンコールか?このサービスを所有しているのは誰か?」と尋ねている。その間、15分が決定的な行動なしに経過する。この投稿は、解決策は別の監視ツールを追加することではなく、より良いランブック、明示的なサービス所有権、事前定義されたエスカレーションパスにあると示唆している。この洞察は、普遍的な運用上の痛点に対処するため、グローバルに関連性が高い。エンジニアリングリーダーにとっての教訓は明確である:より多くのツールを購入する前に、明確なインシデント対応プロトコルを定義し、すべてのサービスに指名された所有者がいることを確認することに投資せよ。このプロセス優先のアプローチは、どの単一のツールよりも効果的にMTTRを削減できる。
MTTRの高さはツールの問題ではなく、調整の問題であることが多い。この分析ではその理由と対策を説明する。