12 Managing Incidents
の章で オンコール対応とインシデント管理についてページが割かれていた
12. Managing Incidents
インシデント管理の目的を The aim of incident management is to minimize the damage, costs, and recovery time.
と唱えてから
- インシデントの定義は組織によって異なる
- Blameless な組織文化
- 役割と責任の分担
- コミュニケーションの確立
- インシデント後のふりかえり ( postmortem, after action review ... )
... あたりをさらっと触れている内容だ。よく見かける感じのサブテーマ・構成で書かれている。SRE 本や PagerDuty のドキュメントあたりを読んだことがある人なら、目新しい記述はさほど多くはないだろう。
可観測性とか IaC とか デファクトになった感のあるテーマも抑えてあって、「なるほど これがモダンか」と、さらっと読み流すのによいボリュームの書籍