関連施設(東京、神奈川、千葉、埼玉、栃木、福島)よりシステムが利用できない、インターネットが遅いといった連絡を受けた際、常に後手の対応となっていた。死活監視しか実施していなかったため、ネットワーク障害が発生すると原因の特定に時間を要した。そこで、監視ツールを導入して適切な原因究明をおこなうことで、後手の対応ではなく先手の対応を目指すことにした。
ネットワーク構成図
■ System Answer G2 (VMware・サーバー・ネットワーク性能監視ツール)
System Answer G2の評価テストの際、評価機を使い、拠点ルーターの監視を行ったところ、トラフィック量が多くなるにつれ、CPU使用率が過剰に上昇し、ICMPレスポンスも悪化していることが判明。これまでの運用では判断が難しかったルーターの性能劣化にすぐ気付くことが出来、有用性を実感した。
■ 操作性・・・GUIが分かりやすく、専門的な知識がなくても簡単に操作できる
■ 可視化・・・把握できなかったネットワークの詳細を可視化でき、適切な原因究明ができる
■データ蓄積・・・詳細なデータを長期にわたり蓄積でき、精度の高いトレンド分析ができる
■ System Answer G2を導入後、トラフィック量の増加に伴いCPU使用率が過剰に上昇している拠点のルーターをリストアップし、リプレイスを実施した。リプレイス後に確認したところ、以前と同等のトラフィックが流れても、CPU使用率が安定していることを証明できた。このようにリプレイスの前後比較を行うことで、投資対効果を実証できた。
System Answer G2で発見できた性能に問題がある拠点ルーター。トラフィック増量に伴いCPU使用率が大きく変動していたが、リプレイス後は安定稼働している状況が見て取れる。
■ 各拠点の機器をブックマーク登録し、稼働状況をいつでも確認できるようにしているため、万が一遅延が発生した際も、どこで何が起こっているのか、その原因や及ぶ範囲の調査まで簡単に行える。
ブックマークを活用して各拠点のトラフィックを同時に比較
■ 日頃、各拠点よりバックアップと統計用データをサーバー室に送信しているため、特定の時間帯にトラフィックが上昇していることが分かった。今後、データ量が増えると、サーバー室の回線帯域を圧迫する可能性があるため、経過観察対象として推移を確認している。
■ 何か事象が起こった際にすぐ行動できるだけでなく、予兆を発見して障害が発生する前に手を打つ、先手の運用体制を整えることが出来た。