メールマガジン

障害発生! でも何をしたらいいのかわからない!

システム管理のつぼ(2018年3月号)

OSS研究室 森 彰吾

少し前にNetflixのシステム障害対応の方法が話題になりました。本番環境にわざとシステム障害を発生させて、速やかに自動復旧の仕組みが動作するか確認するという内容です。つまり、システムの防災訓練です。

自分たちが管理しているシステムを振りかえってみると、障害の発生時にちゃんと対応できるのでしょうか? 対応が難しくなる例としてよく耳にするのは次のようなパターンです。

  • このシステムは○○さんが管理している
  • ベンダーにまかせてある
  • 数年安定稼働しているから、たぶん大丈夫

人やベンダーに依存していると、その退職や企業の倒産などで、システムの管理ができなくなる恐れがあります。また安定稼働していれば、そのような状態でもどうにかなるかもしれません。しかし、いざ障害が発生すると、誰も手出しができない状態になります。

そのため、平常時に次のようなことを準備しておくと、障害復旧時に慌てず迅速に対応できるため、安心です。

  1. システムの設定情報をドキュメント化する
  2. 重要なサービスの想定障害ケースへの対応手順を作成する
  3. 障害時に収集すべき情報をリストにしておく

デージーネットでは、構築したシステムの設定情報は、全てドキュメント化しています。それらのドキュメントは全てお客様にもお渡しして、共有しています。またシステム構築時には、そのシステムに特化したドキュメントの作成も行っています。障害発生時の情報収集を効率化するため、sosreportというツールの利用も開始しました。

いざという時に、慌てず対応できるように万全な準備をしておきましょう。

デージーネットマガジン2018年3月号記事一覧

障害発生! でも何をしたらいいのかわからない!の先頭へ