インシデントマネージメントについての覚書エントリ - Modern System Administration By Jennifer Davis

learning.oreilly.com

12 Managing Incidents の章で オンコール対応とインシデント管理についてページが割かれていた

12. Managing Incidents

インシデント管理の目的を The aim of incident management is to minimize the damage, costs, and recovery time. と唱えてから

  • インシデントの定義は組織によって異なる
  • Blameless な組織文化
  • 役割と責任の分担
  • コミュニケーションの確立
  • インシデント後のふりかえり ( postmortem, after action review ... )

... あたりをさらっと触れている内容だ。よく見かける感じのサブテーマ・構成で書かれている。SRE 本や PagerDuty のドキュメントあたりを読んだことがある人なら、目新しい記述はさほど多くはないだろう。


可観測性とか IaC とか デファクトになった感のあるテーマも抑えてあって、「なるほど これがモダンか」と、さらっと読み流すのによいボリュームの書籍