こんにちは。システム監視設計の基礎の第5回としてネットワーク(NW)監視について記事にしたいと思っています。完全にインフラよりの内容ですが、最近のシステムは単独で動くことなく、ほかのシステムと連携して動くことが多いです。そのため、NWが切れてしまうと大きな業務影響が発生するケースも多く、とても重要な監視です。
NW監視とは
一般にNW監視は、ここのNW機器が正常に動作しているかを監視できることをNW監視と呼ぶことが多いかと思います。ここで注意してほしいのは、NW機器の監視とする点で監視したくなりますが、意識しなければ線(End-to-Endです。
多くの場合は、死活監視などをSNMP(Simple NetWoek Mangement Protcol)を利用するケースが非常に多いのではと思っています。
SNMPとは
SNMP は、その名の通り設定は簡単でシンプルに監視できるものです。UDPベースのプロトコルで死活監視のポーリングはポート161行われており、トラップはポート162で行われます。
基本的にはエージェントとなる個々のNW機器からマネージャーに情報を集約する形ととっています。
SNMPを使用すると個々のNW機器の死活監視と個々のNW機器において出力されるイベントログの二つを監視できる便利なプロトコルです。
SNMP自体は、国際標準のRFCに準拠していますが、各ベンダより細かい設定はことなることが多いので注意が必要でdddす。SNMP自他もver3.0からはセキュリティが強化されるなど今でも進化を続けている使い勝手の良いプロトコルです。
NWの見えるか監視の必要性
NW機器の台数が多いシステムであると”このルーターがダウンした”となっても、名前だけじゃどこに繋がっている機器かわからないということがあります。
そのためNW機器監視は、ENDとENDがわかる可視化されたNW攻勢を基にした監視が必要です。 Zabbix などのオープンスースの監視系製品でもビジュアル監視は実装されているのでぜひ活用することを推奨します。
いざ障害が発生した時に影響調査の速度が違います。ビジュアル的な確認であれば運用担当者でもどこに影響があるのかある程度理解できることが多いはずです。そのため、NW機器の監視には可視化の監視は必須です。
パケットキャプチャ
TCP/IPの通信では、最終的にパケットという単位で通信がなされます。NW系が疑われる障害の場合は、このパケットキャプチャがもの言うことがあります。そのため、リアルタイム監視とは異なりますが、非常に大切な要素です。
例えば何かしらの通信をしたが受けてちゃんと受けれない。でも、送信した側は規定通りに通信しているなんとも多いかと思います。そういった場合には、間のNW機器のパケットを見てみようなんてことも考えられます。
NW機器で通信パケットを持っている期間は少ないケースが多いのでこういった場合に備えてミラーポートを作成してパケットをサーバなり端末に残しておくことも大切です。ただし通信料が多く長期間の保存はHDDを大量に使用してしまうので期間と対象の絞り込みが重要になってきます。
場合によっては、常時ではなく、トラブルが発生したら再現した時に用に都度設置するので十分なこともあるので、そのあたりを吟味してキャプチャの取得を検討しましょう。