CLOUD NAVIクラウドとは?からクラウドを支える技術や関連用語まで解説

FJcloud実践

FJcloud-Vの基本監視機能を使いこなす

2024年3月28日

サーバーやネットワークには、どうしても障害がつきものです。これらを完全に防ぐことはできません。そこで障害はいつか起きるものと割り切った上で、万が一の場合は迅速に復旧できるよう備えておくことが大切です。当然ですが、迅速な復旧のためには、まず発生した障害をすみやかにキャッチする必要があります。とはいえ人間が常時システムを監視するのは現実的ではないでしょう。そこで重要になるのが監視システムです。今回はFJcloud-Vが持っている基本監視機能について解説します。

ダッシュボード

FJcloud-Vにログインしたら、「構築・運用・管理」→「監視」を開いてください。監視機能を全体を俯瞰できるダッシュボードに遷移します。具体的には、各監視項目の状態や、設定されている監視ルール数、アラートの履歴などの確認が可能です。

監視画面を開く

監視

それでは実際に監視を設定してみましょう。ここではロードバランサーの配下に、2台のWebサーバーが配置されているというシステムを例に解説します。

ロードバランサーの配下に2台のサーバーが起動している例

監視ルールの作成

左ペインから「監視」を開いてください。FJcloud-Vでは「監視ルール」という単位で監視項目を設定します。

監視ルールを作成する

最初は、ひとつも監視ルールは設定されていません。それでは実際に監視ルールを設定してみましょう。「監視ルールを作成」をクリックすると、以下の画面が表示されます。必要な項目を入力していきましょう。

監視ルールの基本設定

「監視ルール名」は、この監視ルールにつける名前です。監視ルールは複数作成することになりますから、わかりやすい名前をつけておきましょう。

「監視対象種別」は、文字どおり監視の対象を選択します。FJcloud-Vでは「サーバー」「ロードバランサー」「マルチロードバランサー」「パーティション」の4つを対象に選べます。ここではサーバーのCPU使用率を監視したいたいめ、「サーバー」としました。

「通知先メールアドレス」は、障害が発生した際に通知するメールアドレスです。通知を受け取りたい人(おもに運用担当者でしょう)のメールアドレスを入力してください。メールアドレスは複数設定することもできます。

「メモ」には任意のメモを記述できます。

続いて監視内容の設定です。「監視ルール追加」をクリックすると、「監視ルール」のリストに新しい行が追加されます。

監視ルールの追加

「監視項目」には、前の画面で選択した監視対象種別ごとに固有の、監視項目がリストアップされます。ここから監視したい項目を選択してください。監視対象種別に「サーバー」を選択した場合は、「PING不可」「サーバー停止」「CPU使用率」「メモリ使用率」「ディスク使用率」が選択できます。前述の通り、今回はCPU使用率を監視したいため、「CPU使用率」を選択します。

「閾値」には、異常と判断する閾値を設定します。「条件」には閾値「以上」もしくは「以下」を選択します。CPU使用率が上昇した際に異常としたいため、「50%」「以上」としました。

「長さ」は、閾値を越えてから異常と判断するまでの長さを指定します。ここでは最短の「10分」としました。ここを長くすることで、いわば異常に対して「鈍感」にすることができます。例えば「バッチ処理で毎晩定期的に負荷が上昇するが、10分程度で収まることがわかっているため、いちいち深夜にアラートを上げたくない」というようなシステムもあるでしょう。こうした場合は、意図的にアラート発生までの時間を長めに取るのもよい考えです。発生した障害をすみやかにキャッチする必要があると冒頭で述べましたが、アラートは敏感すぎると誤報にも繋がります。運用を行いながら、適宜チューニングを行って、アラートの精度を上げていくことが重要です。

監視ルールは複数同時に設定し、すべての条件に一致した場合か、いずれかの条件に一致した場合に通知することができます。例えば「CPUとメモリ両方の使用率が上がった時に通知する」「CPUとメモリのどちらかの使用率が上がった時に通知する」といったルールを作ることもできます。

最後に監視対象を選択します。対象となるゾーンを選択した上で、監視対象にチェックを入れてください。

監視対象の選択

ここではあらかじめ作成しておいた、2台のサーバーを選択しました。

最後に監視ルールの確認が表示されます。問題なければ「作成する」をクリックしてください。

監視ルールの確認

これでサーバーのCPU使用率が50%を越えた状態が10分間続くと、自動的にアラートが発報されます。

ルールの一覧表示

左ペインにある「正常」「異常」では、現在作成されている監視ルールのうち、正常なものと異常なものを、それぞれ一覧表示できます。全体を俯瞰し、現在異常となっている監視ルールだけを表示するといったこともできるため、発生している障害に素早く気づけます。

異常が発生したルールを確認できる

メールによるアラートの通知

アラートに気づくために、ダッシュボードを常に開いておく必要はありません。監視ルールの作成時にメールアドレスを設定しておけば、アラート発生時にメールで通知が送られます。

送られてきたメールの例

なおアラートは確認したら終わりではありません。もしも頻繁にアラートが発生するのであれば、何らかの抜本的な対策を施すべきでしょう。ありがちなCPU使用率やメモリ使用率のアラートは、サーバーを増強することで対応できます。とはいえ一時的な高負荷に対応するために、恒久的にサーバーを増強するのは、コスト面でも不利となります。

クラウドのメリットは、オンデマンドにリソースを増減させられる点です。そして負荷に応じて自動的にサーバーを増減させる機能が「オートスケール」です。そして基本監視で取得できるデータのうち、「CPU使用率」「メモリ使用率」「ネットワーク流量」は、オートスケールを発動させるトリガーとして設定することができます。これらの項目は監視ルールを設定し、もしも頻繁にアラートが発生するようであれば、オートスケールの導入も検討してみるとよいでしょう。詳しくはオートスケールの記事を参照してください。

パフォーマンスチャート

パフォーマンスチャートは、サーバーやロードバランサーなどの状態をグラフ化して監視する機能です。一般的な監視システムで言う「メトリクス」に相当します。期間を指定してデータを表示したり、またデータをCSVでダウンロードすることができます。

パフォーマンスチャートも監視対象種別と同様に、「サーバー」「ロードバランサー」「マルチロードバランサー」「パーティション」の4つに分かれています。左ペインから、見たい項目をクリックしてください。

サーバー

サーバーのパフォーマンスチャートでは、各サーバーのCPU使用率、メモリ使用率、ディスク使用率、ネットワーク転送量、PINGの到達性、サーバーの起動状態をそれぞれグラフとして表示できます。グラフを表示したいサーバーにチェックを入れてから、表示する期間を選択して、「この条件でチャートを表示する」をクリックしてください。該当期間のグラフが表示されます。

サーバーのパフォーマンスチャートの例

「CSVダウンロード」をクリックすると、データをCSVファイルとしてダウンロードできます。監視によって得られた数値そのものを、スプレッドシートで集計したいような場合に便利です。

ダウンロードしたCSVをスプレッドシートで集計できる

ロードバランサー

ロードバランサーのパフォーマンスチャートでは、ロードバランサーにおけるIN/OUTそれぞれのネットワーク流量をグラフとして表示できます。

ロードバランサーのパフォーマンスチャート

マルチロードバランサー

マルチロードバランサーのパフォーマンスチャートでは、マルチロードバランサーにおけるIN/OUTそれぞれのネットワーク流量をグラフとして表示できます。

マルチロードバランサーのパフォーマンスチャート

パーティション

パーティションのパフォーマンスチャートでは、サーバーのディスクパーティションの状態をグラフとして表示できます。ただし他のパフォーマンスチャートと異なり、あらかじめ監視ルールが作成され、監視対象となっているパーティションのみが表示される点に注意してください。

あらかじめパーティションを監視対象としておく必要がある
パーティションのパフォーマンスチャート

まとめ

FJcloud-Vの基本監視はその名の通り、サーバーの死活、CPUとメモリの使用率、ディスクの空き容量、ネットワークの流量といった、基本的な項目を監視するための機能です。繰り返しになりますが、サーバー障害はいつか必ず起きるものです。その時に障害の発生に気づけないという事態だけは、なんとしても避けなくてはなりません。

基本監視は、監視システムとしては非常にシンプルなものに留まります。ですが今すぐに使いはじめられる監視機能としては、必要十分であるとも言えます。特に内部的な開発サーバーなどは、運用にあまりコストをかけられないという事情もあり、監視はおざなりになりがちです。ですが基本監視は無料で使いはじめられますので、もしも今現在、一切監視を行っていないサーバーがあるのであれば、サーバーの停止やPING応答といった項目だけでも、監視を行うことを推奨します。

商用の本番環境など、基本監視よりも詳細な監視が求められるシステムもあるでしょう。こうしたシステムではカスタマイズ性に富んだ、専用の監視システムの導入も検討してみてください。人気のあるオープンソースの監視システムとしてはZabbixが挙げられます。Zabbixについては別途解説していますので、そちらの記事も合わせてご覧ください。

PageTop