調べ物中に Brent Chapman さんが発表した『SREcon21 - Evolution of Incident Management at Slack』という動画をみつけた
SREcon21 - Evolution of Incident Management at Slack
タイトルのスクリーンショットです
YouTube 視聴のリンクは ↓ です
Slack 社での障害事例から導入して、インシデント対応のビジョン、トレーニング方法、いろんなシチュエーションでのインシデント対応の戦略/戦術、なんかを説いてる感じ。自動化だとかの技術的なアプローチの話はなかったです。
インシデントマネジメントを 3つに分解して考えるモデルが参考になりました。COVID-19 下についても触れていて今時な話題もあります。
発表者は Brent Chapman という方で、インシデント対応に関する PDF を公開している
Incident Command for IT: What We’ve Learned from the Fire Department
消防隊から学んだことを、IT 系企業のインシデント対応に活かすという内容で、ちょっとした tips やコミュニケーションのプラクティス、はてはマネジメント〜組織文化論まで ぎっちりつまった素晴らしい内容だ。
GMOペパボのインシデント対応でも、ここから学んだことを取りいている。
Brent Chapman さん の経歴
改めて経歴を調べ直してみました。
ブレントチャップマンは、緊急事態管理の専門家であり、ITインフラストラクチャとサイト信頼性エンジニアリング(SRE)の強力なバックグラウンドから働き、緊急事態に備えて緊急事態から学ぶように組織を指導しています。
ブレントは、Googleの伝説的なSRE組織のリーダーとして、上級管理職に会社のインシデント管理慣行を強化および標準化する必要性を確信させ、現在会社全体で使用されているGoogleでのインシデント管理(IMAG)システムを作成しました。彼はまた、会社が大小の事件から学ぶために使用するGoogleでの事後分析(PMAG)システムの改良を支援しました。
Googleの伝説的なSRE組織のリーダー !!! SRE 本にも載っているような Google のインシデント周りの話は、この方が作り上げたものんだろうかな?
ブレントは、元航空捜索救助パイロットおよびインシデントコマンダー、主要なアート&ミュージックフェスティバルおよびイベントの緊急ディスパッチャーおよびディスパッチスーパーバイザー、コミュニティ緊急対応チーム(CERT)のメンバーおよびインストラクターとして、ITにおける彼の仕事に独自の視点をもたらします。 。
こういう経歴があって IT 系企業のインシデントに手法や方法論を持ち込んだのかなぁ
ブレントはそのキャリアを通じて、初期の新興企業からGoogle、Apple、Netflixなどの巨人まで、あらゆるものに対応するITインフラストラクチャとチームを設計、構築、管理、拡張してきました。彼は、高く評価されているO'Reillyの著書Building Internet Firewallsの共著者であり、広く使用されているオープンソースソフトウェアの開発者であり、世界中の会議で人気のある講演者です。 彼は、シリコンバレーと世界中の数十の組織、およびさまざまな非営利団体や政府機関と協力してきました。
(プロフィール分は https://greatcircle.com/ のプロフィールを Google 翻訳したものです )
別サイトのプロフィールでは、 marjordomo の開発者であるとも載っていた。wikipedia で確認すると たしかにお名前が載っている! Perl !
LKML 読むときにお世話になってるよなと思った
突然の宣伝
CNDT2021 では GMO ペパボのインシデント対応について話をする予定です (*1)
『Incident Command for IT: What We’ve Learned from the Fire Department』 も引き合いに出すスライドを作成中です
こんな話も盛り込む 🚒 🔥
*1) 実は事前録画を提出する締め切り間際。このエントリを書きつつスライドと動画を準備している