Operation Breaks
Scope
Mục tiêu là các trạng thái trong đó
operational assumptions cho software chạy liên tục
không còn có thể được duy trì.
Điều được đề cập ở đây không phải là các vấn đề của operational tools hoặc environments cụ thể, mà là các loại breakdown được quan sát trong operations.
Definition
Operations breaks mô tả một trạng thái trong đó, liên quan đến các operational acts như deployment, rollback, observation, và configuration changes,
các giả định rằng chúng có thể được thực hiện an toàn và có thể tái tạo bị sụp đổ một phần,
và các tình huống được quan sát mà các thay đổi và failure response không thể được kiểm soát như giả định.
Symptoms
- Deployment được coi như một one-time operation và không thể tái tạo
- Điều gì đang xảy ra không thể được nắm bắt ngay lập tức khi các thất bại xảy ra
- Assumptions thành lập mà rollback tồn tại chỉ về lý thuyết và không thể được thực hiện trong actual operations
- Các tình huống được quan sát mà configuration changes không còn lại như code hoặc history, và behavior phụ thuộc vào environment
Typical Triggers
- Các trạng thái tiếp tục mà operational procedures được coi như implicit knowledge và documentation hoặc sharing không được thực hiện
- Observation và logs được thêm vào sau thực tế và không được coi như operational assumptions
- Emergency response và exception handling trở nên vĩnh viễn và được tích hợp như assumptions của normal flow
- Các thay đổi được xếp lớp trong khi boundary giữa configuration và code vẫn không rõ ràng
Diagnostic Questions
- Có phải là một trạng thái mà currently running state có thể được giải thích dưới dạng có thể tái tạo?
- Có phải là một trạng thái mà necessary information có thể được thu thập ngay lập tức trong các thất bại?
- Có phải là một trạng thái mà có thể xác nhận rằng rollback thực sự có thể thực hiện?
- Có phải là một trạng thái mà history và phạm vi tác động của configuration changes có thể được tracked?
What This Is Not
- Điều này không phải là vấn đề chọn operational tools hoặc cloud services cụ thể
- Điều này không đề cập đến thiếu sự chú ý hoặc nỗ lực bởi operations personnel
- Điều này không đề cập đến single operational errors
Connections
- Why It Breaks: Context Erosion, Measurement Gap