mocamocablog

tech blogがメインです

システム障害対応実践ガイドを読んだ

こちらはITサービスマネージャー(保守運用・ITSM・IT service manager) Advent Calendar 2023の24日目の投稿記事です。

ちょうど今日システム障害対応 実践ガイドを読了した。

もう3ヶ月前、BPStudy#193〜システム障害は突然に/ 障害対応のポイントや改善方法を学ぼうという障害対応をテーマにしたイベントがあった。

その時、システム障害対応実践ガイドの著者から書籍プレゼントに応募し当選したが、受け取ってからはずっと読まずに放置してしまいました。

ちょうどアドベントカレンダーの季節となり、ITサービスマネージャー(保守運用・ITSM・IT service manager) Advent Calendar 2023があったので参加しつつ、本を読み終えるために書いたものです。

BPStudy#193〜システム障害は突然に/ 障害対応のポイントや改善方法を学ぼうの当時のイベントと書籍はこちら
bpstudy.connpass.com

3カ月で改善!システム障害対応 実践ガイド インシデントの洗い出しから障害訓練まで、開発チームとユーザー企業の「協同」で現場を変える www.seshop.com

どういう本か

  • この本はシステム障害対応の方法について解説しています。

  • 例えば現在何か案件に参画してて障害対応が起きても対応しっぱなしで、その後も改善がされてないなどよくあると思うのですが、そういった時に3ヶ月くらいかけて段階的に改善対応の方法について詳しく解説しています。

  • また実践での改善だけでなく障害対応の目的や改善効果、障害対応を行なった後の振り返りやチェックすべきことなどについても記載されています。



ポイントなど

  • 実践編において3ヶ月くらいの内容を1週間くらいの単位で段階的に解説しているのでどう改善すればいいかが分かりやすく書かれています。
    例えば、障害が起きたときにログを確認する時に余計な情報などないか、またはアラートが来たときに不必要なものがないかといったことなどが挙げられています。

  • 実践する場合にどういった声がけをするといいかが解説されており、これらは1週間単位で記載がされてるので、それぞれのシチュエーションでどう聞き出せばいいか参考になるかと思います。

  • あと実際に障害が起きることを想定して、どう連絡を取るかを決めておくなどがあります。
    実際起きた時に、いろんな部署や顧客を巻き込んで対応する必要があったりするので、Slackで大丈夫と思ってても別部署などでは別の連絡方法が必要になるといったことがあります。そのため、緊急での対応の認識合わせが重要と記載されていました。

所感

  • 障害対応についても通常の開発と同じように属人化せず、誰でも対応できるようにするのが重要だと思った。
    • 特定の人だけが対応するのは、いざその人がいなくなれば、その後で別の人が対応することになり、どう対応すべきかが分からなくなったりして、残った人達が苦労すると思われます。
    • あと特定の人だけで常に対応することになると、負担も大きいと思われます。例えば連日障害が出てたり休日出勤も頻繁にあるなどしたら大変でしょう。
  • この本にもあるように障害対応をするエンジニアやQA、顧客側も含めてお互いに協力体制を築くのが理想ではあるが、ここが一番大変だろうなという気がした。それぞれで立場的なところは話し合いができればどうにかなるかもしれないが、会社によって結構お役所的なところだったり心理的安全性の部分を考えると上手く進めるには別の障壁が大きいかもと思った。
  • この本には書かれてないのですが、BPStudyのイベントで著者の野村さんが言われてた、障害対応が長時間続く場合、必ず長時間対応してた人を休ませるという話があった。障害対応を行う人は責任感があり、無理をしやすいことが多いとのこと。 確かにその通りで、復旧に集中し過ぎると、対応している人の精神状態が後回しになりがちです。実際に起きた時は、この点にも注意したいと思います。

  • 自分が心当たりのあった障害だと、開発環境にデプロイするたびに障害が起きてた時があり(本番リリースはいつも問題なしでした)、当然その度に対応してたのですが、その時システム周りについて誰も詳しい人がいなかったので、対策として毎回その時の障害報告をあげてもらってどういうことが起きて、どういう対策をしたかを残してもらうようにしました。
    結果的に障害はそんなには減らなかったものの、今まで数時間かかって対処してたものをいくらか対応を時間を削減したり、どう対処すればいいか困ることは少なくなったと思います。

  • Chapter1にあったROI(投資対効果: Return On Investment)ってどうやって算出してる値なんだろうと思って少しだけ調べた。利益金額÷投資金額×100(%)になってるっぽい
    参考: ROI(投資利益率)とは?【意味をわかりやすく】計算方法 - カオナビ人事用語集

まとめ

この本は日々の障害対応に追われている人、頻繁な障害対応で困っている人、または重要なアラートや通知を見逃してしまう人に特におすすめです。