運用が壊れる
Scope
対象は、ソフトウェアを継続的に稼働させるための運用上の前提について、 維持できない状況が観測されている状態である。 ここで扱うのは、特定の運用ツールや環境の問題ではなく、運用中に観測される破綻の型である。
Definition
運用が壊れるとは、デプロイ、ロールバック、観測、設定変更といった運用行為について、 安全かつ再現可能に実行できるという前提が部分的に崩れ、 変更や障害対応が前提どおりに制御できない状況が観測される状態を指す。
Symptoms(現れ方)
- デプロイが一回限りの操作として扱われ、再現できない状態が観測される
- 障害発生時に、何が起きているかを即座に把握できない状況が観測される
- ロールバックが理論上のみ存在し、実運用では実行できない前提が成立している
- 設定変更がコードや履歴として残らず、挙動が環境依存となっている状況が観測される
Typical Triggers
- 運用手順が暗黙知として扱われ、文書化や共有が行われない状態が継続している
- 観測やログが後付けで追加され、前提として扱われていない状況が観測される
- 緊急対応や例外処理が恒久化し、通常フローの前提として組み込まれている
- 設定とコードの境界が不明確なまま、変更が重ねられている状況が観測される
Diagnostic Questions(見分けるための問い)
- 現在稼働している状態を、再現可能な形で説明できる状態か
- 障害時に、必要な情報が即座に取得できる状態か
- ロールバックが実際に実行可能であるかを確認できる状態か
- 設定変更の履歴と影響範囲を追跡できる状態か
What This Is Not
- 特定の運用ツールやクラウドサービスの選定問題ではない
- 運用担当者の注意不足や努力不足を指すものではない
- 単発のオペレーションミスを指すものではない