メインコンテンツまでスキップ

🧩 SLO / SRE(Site Reliability Engineering)

✅ このスタイルの概要

信頼性を「エンジニアリング」で達成するための実践体系。SLO(目標)とエラーバジェットで可用性を設計する。

✅ 解決しようとした問題

  • 可用性の定義が曖昧なまま開発・運用してしまう
  • 「安定性 vs 開発速度」の衝突が収束しない
  • 障害時の対応が属人化している
  • 高可用性を“根性”で実現しようとする文化

✅ 基本思想・ルール

  • SLI(指標)→ SLO(目標)→ SLA(契約)の三段階
  • “エラーバジェット” によるバランス制御
    → 信頼性が十分なら開発速度を上げ、
    使い切ったら安定化に注力する
  • インシデントレスポンスの標準化(On-call, Runbook)
  • ポストモーテム文化(責任追及ではなく改善)

✅ 得意なアプリケーション

  • インターネット規模のサービス
  • マイクロサービスや分散システム
  • 強い可用性要件(99.9%〜99.999%)

❌ 不向きなケース

  • 可用性要件が低い小規模アプリ
  • 運用文化が育っていない組織(組織トレーニングが必要)

✅ 歴史

  • Google SRE を起点に体系化
  • SLO / Error Budget が標準化し、クラウド時代の指標に採用

✅ 関連スタイル

✅ まとめ

SRE は
「信頼性をコードで保証する」アプローチ
であり、
SLO + Error Budget による可用性管理が中心となる。