メインコンテンツまでスキップ

🧩 SLO / SRE（Site Reliability Engineering）

✅ このスタイルの概要

信頼性を「エンジニアリング」で達成するための実践体系。SLO（目標）とエラーバジェットで可用性を設計する。

✅ 解決しようとした問題

可用性の定義が曖昧なまま開発・運用してしまう
「安定性 vs 開発速度」の衝突が収束しない
障害時の対応が属人化している
高可用性を“根性”で実現しようとする文化

✅ 基本思想・ルール

SLI（指標）→ SLO（目標）→ SLA（契約）の三段階
“エラーバジェット” によるバランス制御
→ 信頼性が十分なら開発速度を上げ、
使い切ったら安定化に注力する
インシデントレスポンスの標準化（On-call, Runbook）
ポストモーテム文化（責任追及ではなく改善）

✅ 得意なアプリケーション

インターネット規模のサービス
マイクロサービスや分散システム
強い可用性要件（99.9%〜99.999%）

❌ 不向きなケース

可用性要件が低い小規模アプリ
運用文化が育っていない組織（組織トレーニングが必要）

✅ 歴史

Google SRE を起点に体系化
SLO / Error Budget が標準化し、クラウド時代の指標に採用

✅ 関連スタイル

Observability：SLI 計測の基盤
DevOps：文化的背景と自動化
Team Topologies：On-call や運用責任の分配

✅ まとめ

SRE は
「信頼性をコードで保証する」アプローチ
であり、
SLO + Error Budget による可用性管理が中心となる。

✅ このスタイルの概要
✅ 解決しようとした問題
✅ 基本思想・ルール
✅ 得意なアプリケーション
❌ 不向きなケース
✅ 歴史
✅ 関連スタイル
✅ まとめ