CLOUD NAVIクラウドとは?からクラウドを支える技術や関連用語まで解説

基礎知識

サーバー冗長化の手法-「ホットスタンバイ」「コールドスタンバイ」とは?-

2019年04月15日

システムを継続的・安定的に運用するためには、「冗長化」は必須の技術です。オンプレミスにおいてサーバーの冗長化を実現する手法の代表的なものに、「ホットスタンバイ」や「コールドスタンバイ」があります。それぞれの手法の概要と違いについて、解説いたします。

そもそも「冗長化」とは何か?

日常生活では「冗長な話」「冗長な文章」など、無駄が多く回りくどいという意味で使われる冗長という言葉ですが、システムを設計・運用する場合、ポジティブな意味合いで使われる重要な言葉の1つです。

システムでは、業務の継続性を重視するために障害対策の強化が欠かせません。そのため、万が一のハードウェア故障に備え、同じ機能を持つサーバーやスイッチなどの機器を複数用意しておき、耐障害性を高めることを「冗長化」と呼びます。

冗長化の目的は、システムに障害が発生した場合でも、できるだけサービスが停止してしまう時間を抑制し、安定してサービスを継続する仕組みを実現することです。冗長化により耐障害性を高め、信頼性や安全性を確保している状態を「冗長性がある」と言います。

例えば、航空機は昇降舵やエンジンの制御系が複数系統設けられ、仮に1つの系統が故障しても、航空機のコントロールが失われない設計を採用し冗長化を構成しています。

冗長化の最大のメリットは、ハードウェアが故障したとしても予備の機器を速やかにあてがうことでシステムの停止時間を縮小できる点です。また、予備機が可動している間に故障した機器を修理・復旧し、予備機の予備として再度組み戻すことができます。

「ホットスタンバイ」と「コールドスタンバイ」は何が違うのか?

故障に備えてサーバーやスイッチなどの予備機を用意しておくだけでは、復旧に時間がかかります。迅速な復旧を実現するためには、予備機をネットワークや電源に接続しておき、万が一の際には、即座に故障機の代わりを務められるように準備しておく必要があります。

その準備の方式に「ホットスタンバイ」と「コールドスタンバイ」というものがあります。サーバーを例に違いを見ていきますが、前提として、いずれの方式でも、稼働中の「運用系」と故障の際に代替機になる「待機系」の2つのサーバーが必要になります。

ホットスタンバイとコールドスタンバイの主な特長

ホットスタンバイでは、運用系と待機系が互いに死活監視(ハートビート監視)を行い、異常や障害を検知した際は、即座に待機系の代替可動を実現します。サーバークラスタを構成するためのソフトウェアや共有ストレージなども用意しなければならず、ハードウェアやソフトウェア、運用面でコストがかさむ可能性がありますが、故障発生時も連続したシステム可動が実現できます。

対してコールドスタンバイでは、故障の発生後に待機系を起動させることから、システムが一時的に停止するダウンタイムが生じるものの、ホットスタンバイと比べシンプルな構成になるため、一般的には構築コストやリソースの軽減に期待できます。

ただし、コールドスタンバイにおいても、SANで光ファイバーのツインテールディスクなど、高価なハードウェア構成を取ると、結果として構築費用がホットスタンバイと同等になってしまうケースもあります。

しかし、ソフトウェアライセンス面を考慮すると、例えば、データベースソフトウェアではサーバー2台で冗長化する際、ホットスタンバイ構成なら2台分のライセンスが必要で、コールドスタンバイでは2台のサーバーを同時に使わなければ2台分のライセンスを用意する必要がない場合があり、コストの削減を図ることができます。

ホットスタンバイとコールドスタンバイには、それぞれメリットとデメリットがあり、システムに必要なサービスレベルを見極めることが重要です。

政府系や金融機関に代表されるように、いわゆる「止められないシステム」では、ホットスタンバイによるシステムの安定稼働の実現、数時間のシステム停止なら業務やサービスに大きな問題は発生しないケースでは、コールドスタンバイといったようなケースバイケースの判断が必要です。

不要なホットスタンバイは過剰投資といえますが、逆に連続稼働が求められるシステムがコールドスタンバイでは、障害時に大きな損害を発生させる原因となる可能性もあります。

クラウドで冗長性を確保するには

サーバーの冗長化を実現する代表的な手法について見てきましたが、「止められないシステム」という観点では、クラウドも該当します。クラウドでもホットスタンバイ・コールドスタンバイという構成はとれますが、それ以外にはどのような冗長化の仕組みが用意されているのでしょうか。

物理サーバーでは、前述のようにホットスタンバイなどのハードウェア構成で可用性の向上を実現していましたが、クラウドではサービス事業者より提供されている機能・サービスを利用して可用性の向上を実現することができます。

クラウドサービスでは、運用系に故障が生じた際に同等の待機系ホストでの再起動による切り替えを自動で行う「自動フェイルオーバー機能」を提供していることが多く、FJcloud-V(旧ニフクラ)では標準機能で 自動フェイルオーバー(HA機能)を提供しています。データや現在設定されているIPアドレス、付替IPアドレスなどが自動的に引き継がれるため、ユーザーは予備機を意識することなく、連続したサービス利用ができます。

また、クラウドサービスの拠点となるデータセンターの多くでは、サーバーやストレージだけでなく、ネットワーク機器や電源系なども冗長化が行われていることが一般的です。例えば、FJcloud-V(旧ニフクラ)の場合は構成コンポーネント(サーバー、ディスク、ネットワーク)はすべて完全二重化されており、特にストレージについては、RAID6相当の冗長化を行っています。これによりFJcloud-V(旧ニフクラ)のサービスを安定して継続提供し、お客様の情報資産を守っています。すべての機器が冗長化されているため、FJcloud-V(旧ニフクラ)側でのメンテナンス時に、お客様の仮想サーバーを停止することもありません。

PageTop