障害発生! でも何をしたらいいのかわからない!
システム管理のつぼ(2018年3月号)
OSS研究室 森 彰吾
少し前にNetflixのシステム障害対応の方法が話題になりました。本番環境にわざとシステム障害を発生させて、速やかに自動復旧の仕組みが動作するか確認するという内容です。つまり、システムの防災訓練です。
自分たちが管理しているシステムを振りかえってみると、障害の発生時にちゃんと対応できるのでしょうか? 対応が難しくなる例としてよく耳にするのは次のようなパターンです。
- このシステムは○○さんが管理している
- ベンダーにまかせてある
- 数年安定稼働しているから、たぶん大丈夫
人やベンダーに依存していると、その退職や企業の倒産などで、システムの管理ができなくなる恐れがあります。また安定稼働していれば、そのような状態でもどうにかなるかもしれません。しかし、いざ障害が発生すると、誰も手出しができない状態になります。
そのため、平常時に次のようなことを準備しておくと、障害復旧時に慌てず迅速に対応できるため、安心です。
- システムの設定情報をドキュメント化する
- 重要なサービスの想定障害ケースへの対応手順を作成する
- 障害時に収集すべき情報をリストにしておく
デージーネットでは、構築したシステムの設定情報は、全てドキュメント化しています。それらのドキュメントは全てお客様にもお渡しして、共有しています。またシステム構築時には、そのシステムに特化したドキュメントの作成も行っています。障害発生時の情報収集を効率化するため、sosreportというツールの利用も開始しました。
いざという時に、慌てず対応できるように万全な準備をしておきましょう。