Retry-as-Recovery

A Derived Failure Pattern of Temporal Assumptions and Hidden Side Effects

Retry-as-Recovery は、障害や失敗からの回復手段としてリトライが事実上の唯一の戦略となり、時間・状態・副作用に関する前提が崩れていく Failure Pattern である。

本 Pattern が扱うのは、リトライという技術自体の是非ではない。部分失敗が常態化した環境において、「とりあえず再実行する」判断が合理的に積み重なり、結果として回復不能な状態が生まれる構造を扱う。

Context

分散システムや外部 API 連携において、一時的な失敗は避けられない。

ネットワークエラー、タイムアウト、競合などは時間をおけば解消することも多く、リトライは有効な対処として一般的に採用されている。

この Pattern を生み出す主な力学は以下である。

リトライが回復の代替として使われることで、時間と状態に関する前提が維持されなくなる。

その結果、以下のような壊れ方が同時に進行する。

以下は解決策の一覧ではなく、 Failure Mode に対して最小限の介入で力学を変えるための対抗パターンである。

リトライは引き続き利用されるが、それは限定された状況における戦略となる。

回復は再実行だけに依存せず、状態や副作用を考慮した設計判断として扱われる。

その結果、失敗は制御可能なものとなり、時間と状態に対する理解が回復する。

David L. Parnas, On the Criteria To Be Used in Decomposing Systems into Modules, 1972.
Fred Brooks, No Silver Bullet—Essence and Accidents of Software Engineering, 1987.
Donella H. Meadows, Thinking in Systems: A Primer, 2008.
W. Edwards Deming, Out of the Crisis, 1982.