🧩 SLO / SRE(Site Reliability Engineering)
✅ このスタイルの概要
信頼性を「エンジニアリング」で達成するための実践体系。SLO(目標)とエラーバジェットで可用性を設計する。
✅ 解決しようとした問題
- 可用性の定義が曖昧なまま開発・運用してしまう
- 「安定性 vs 開発速度」の衝突が収束しない
- 障害時の対応が属人化している
- 高可用性を“根性”で実現しようとする文化
✅ 基本思想・ルール
- SLI(指標)→ SLO(目標)→ SLA(契約)の三段階
- “エラーバジェット” によるバランス制御
→ 信頼性が十分なら開発速度を上げ、
使い切ったら安定化に注力する - インシデントレスポンスの標準化(On-call, Runbook)
- ポストモーテム文化(責任追及ではなく改善)
✅ 得意なアプリケーション
- インターネット規模のサービス
- マイクロサービスや分散システム
- 強い可用性要件(99.9%〜99.999%)
❌ 不向きなケース
- 可用性要件が低い小規模アプリ
- 運用文化が育っていない組織(組織トレーニングが必要)
✅ 歴史
- Google SRE を起点に体系化
- SLO / Error Budget が標準化し、クラウド時代の指標に採用
✅ 関連スタイル
- Observability:SLI 計測の基盤
- DevOps:文化的背景と自動化
- Team Topologies:On-call や運用責任の分配
✅ まとめ
SRE は
「信頼性をコードで保証する」アプローチ
であり、
SLO + Error Budget による可用性管理が中心となる。