実践的な実験として、開発者が読み書き分離環境でプライマリデータベースを意図的に停止し、クラスターの挙動を観察しました。期待に反して、システムはクリーンにフェイルオーバーせず、レイテンシの急増、部分的な書き込み失敗、状態の不整合が発生しました。この記事では、レプリカが移行をどのように処理したか(または処理できなかったか)を含む正確なイベントシーケンスを詳述しています。主な教訓として、適切なヘルスチェック間隔、コネクションプールのタイムアウト、アプリケーションレベルのリトライロジックの必要性が挙げられます。この実世界のテストは、高可用性構成がドキュメントの前提を超えた厳格な検証を必要とすることを強調しています。MySQLや類似のアーキテクチャに依存するチームにとって、研究する価値のある警告の物語です。
エンジニアが読み書き分離構成でプライマリDBを停止し、予想外のクラスター動作を発見。