オープンソース

OSSのおすすめ監視サーバ・監視ツール「監視サーバ・ソフトウェアの選定ポイント」

監視サーバを選定する場合には、どのような対象に対して、どのような監視を行う必要があるのかを十分に考慮する必要があります。また、そもそも管理の効率化を目指して行うのですから、管理のしやすいものを選ぶ必要があります。

監視サーバ・ソフトウェアの選定ポイント

監視後のアクション

ほとんどの監視サーバでは、監視結果に基づいて何らかの通知やアクションを行う機能が用意されています。用途に合わせて、適切な管理方法が取れるソフトウェアを選択する必要があります。

画面上で確認

監視コンソール上で視覚的に問題点を表示します。管理者が常時状況を確認できる状態の場合には、この方法だけでも充分かもしれません。また、他の通知と組み合わせて利用すれば、状況を把握しやすくなります。

メールの送信

管理者にメールで通知します。管理者が常時コンソールを見ていられないような場合には、有効な方法です。

サービスの正常化

システムを待機系に切り替えたり、障害が発生したサーバを自動的に切り離すなど、サービスを正常化するアクションを行います。例えば、HAクラスタのソフトウェアはサービスを監視していて、異常があれば自動的に待機系のサーバにサービスを切り替える機能を持っています。これは、監視を応用した例です。

インシデントの登録

発生した問題をデータベースなどに登録し、管理者が問題管理を行いやすくします。

その他

外部連携の機能を持っているソフトウェアもあります。外部連携の機能があると、障害発生時に少しでも早く管理者に知らせるために、警告音を出す、パトランプを回す、電話を掛けるなど、様々な方法をとることができます。ちなみに、デージーネットでは、監視を行っている顧客システムでの障害発生時には、パトランプが回転し、警告音が鳴るようにしています。また、夜間にはコールセンターへの通知も行っています。

SNMP型かエージェント型か

監視ソフトウェアが監視を行う方法には、SNMP型とエージェント型があります。

SNMP

SNMP(Simple Network Management Protocol)は、多くのネットワーク機器がサポートする監視のためのプロトコルです。Windows ServerやLinuxでもSNMPがサポートされています。そのため、ほとんどの機器を監視することができます。Linuxディストリビューションで標準的に使われているNET-SNMPでは、サーバのロードアベレージ、CPU使用率、ディスク使用率、プロセスの状況など、サーバの状態監視に必要なほとんどの機能を揃えています。そのため、ほとんどのケースではSNMPでの監視で充分です。

エージェント

監視対象の機器に、監視エージェントとよばれる専用のプログラムをインストールし、それを通じて情報を収集するやり方です。SNMPよりも詳細な情報が取れます。SNMPだけでは情報が不足する場合には、エージェント型で監視ができるソフトウェアを選択します。ただし、エージェントは専用のプログラムであるため、どの機器にもインストールできるわけではありません。

トラップとポーリング

SNMPによる監視では、SNMPトラップとポーリングの2つの方法があります。SNMPトラップは、監視対象機器で何らかの障害やイベントが発生した場合に、機器から監視サーバに通知を送る方法です。一方、ポーリングは、監視サーバから定期的に状況の確認を行う方法です。

SNMPトラップを利用する利点は、即時性の高さです。問題が発生してすぐに監視サーバに通知が行われるため、管理者はすぐに問題の発生を知ることができます。SNMPトラップの通知には、UDPが使われます。しかも、問題発生時に一回だけ通知が行われます。そのため、ネットワークのトラフィックが高かったり、監視サーバの負荷が高くてパケットを受け取れなかったりすると、通知のパケットが失われて届かない場合があります。障害発生時には、ネットワークが混み合っていたり、監視サーバにも負荷がかかる状況になる場合が多いため、その危険性を認知した上で別の監視方法と組み合わせて使う必要があります。

一方、SNMPポーリングでは、監視サーバが定期的に監視対象を確認しに行きます。例えば、1分おきに監視を行う場合、障害の発生から検知までには1分のタイムラグができます。また、問題が1分以内に収束してしまった場合には、その検出もできません。しかし、問題が直らなければ何度でも通知が行われるため、継続している問題を見落とすことは、ほとんどありません。

一般的には、少しのダウンタイムも許容できないシステムの場合には、SNMPトラップと別の監視を組み合わせて使います。しかし、ほとんどの場合にはSNMPポーリングで充分だと考えられています。また、SNMPトラップとログの監視を同一のサーバで処理することは避ける必要があります。

管理性

監視サーバの管理性は、かなり重要な確認項目です。頻繁に監視対象機器の追加がある場合には、やはりGUIから設定できると便利です。また、監視結果を数値で見ても分りにくいため、グラフなどにしてGUIで表示してくれると分りやすいです。また、管理GUIは日本語対応が行わている方が使いやすいでしょう。

拡張性

監視対象の数が多い場合には、複数台の監視サーバが必要になる場合があります。そのような場合でも、対応できる拡張性があるかどうかを確認しておく必要があります。

OSSのおすすめ監視サーバ・監視ツール

ネットワーク・サーバ監視ツール
ここでは、ZabbixCactiIcinga2PrometheusNagiosmuninHinemosPandora FMSについて紹介します。
ログの管理・監視システム
ここでは、SyLASGraylogrsyslogOpenObservesyslog-ngswatchについて紹介します。
稼働状況の可視化ツール
ここでは、CockpitMRTGcollectdについて紹介します。
死活監視ツール
ここでは、fpingについて紹介します。
監視コンソールとアラート管理のツール
ここでは、GrafanaAlertmanagerHatoholについて紹介します。
監視サーバ・ソフトウェアの選定ポイント
ここでは、監視サーバを選定する場合のポイントについて紹介します。
Linuxサーバの監視
ここでは、Linuxサーバの監視を行う場合に利用できるソフトウェアと注意点について紹介します。

OSSのおすすめ監視サーバ・監視ツール「監視ソフトウェアの選定ポイント」の先頭へ