<book_title> を検索 ...

Cluster Server 8.0 管理者ガイド - Linux

Last Published: 2022-01-26

Product(s): InfoScale & Storage Foundation (8.0)

Platform: Linux

例: クラスタ相互接続に障害が発生した、4 つのシステムを持つクラスタ

この例では、クラスタ相互接続に障害が発生し、4 つのシステムで構成される 1 つのクラスタが 2 つのシステムで構成されるクラスタに分割されます。クラスタでは、1 つのサブクラスタのみが残るようにメンバーシップアービトレーションが実行されます。

ハートビートの消失によって、システム 0 とシステム 1 の両方はシステム 2 とシステム 3 が停止していると考えます。システム 2 とシステム 3 の両方はシステム 0 とシステム 1 が停止していると考えます。

図: クラスタ相互接続に障害が発生した、4 つのシステムを持つクラスタ

I/O フェンシング操作は次のように進行します。

4 つの各システムの LLT は、通信相手（ピア）とのタイムアウト値に設定された期間、設定済みのどの LLT インターフェースにおいても、相互接続エラーの相手側のシステムからハートビートメッセージを受信しなくなります。
各システムの LLT は、メンバーシップの変更を認識したことを GAB に伝えます。具体的には次のとおりです。
- システム 0 の LLT は、システム 2 とシステム 3 を認識できなくなったことを GAB に伝えます。
- システム 1 の LLT は、システム 2 とシステム 3 を認識できなくなったことを GAB に伝えます。
- システム 2 の LLT は、システム 0 とシステム 1 を認識できなくなったことを GAB に伝えます。
- システム 3 の LLT は、システム 0 とシステム 1 を認識できなくなったことを GAB に伝えます。
LLT が GAB にハートビートの消失を通知した後、残っているシステムは「GAB 安定タイムアウト」（5 秒）を実行します。この例の詳細は次のとおりです。
- システム 0 とシステム 1 は、その両方がシステム 2 とシステム 3 を認識できないことに同意します。
- システム 2 とシステム 3 は、その両方がシステム 0 とシステム 1 を認識できないことに同意します。
GAB はシステムを DOWN としてマーク付けし、システムをクラスタメンバーシップから除外します。この例の詳細は次のとおりです。
- システム 0 とシステム 1 の GAB は、システム 2 とシステム 3 を DOWN としてマーク付けし、それらをクラスタメンバーシップから除外します。
- システム 2 とシステム 3 の GAB は、システム 0 とシステム 1 を DOWN としてマーク付けし、それらをクラスタメンバーシップから除外します。
4 つの各システムの GAB は、メンバーシップアービトレーションを行うためにメンバーシップの変更を vxfen ドライバに伝えます。各サブクラスタはコーディネータディスクの制御権を獲得しようとします。この例の詳細は次のとおりです。
- システム 0 は LLT ID が低いため、自身とシステム 1 を代表して制御権の獲得競争に参加します。
- システム 2 は LLT ID が低いため、自身とシステム 3 を代表して制御権の獲得競争に参加します。
4 つの各システムの GAB はメンバーシップの変更を HAD にも伝えます。HAD はフェンシングモジュールからのメンバーシップアービトレーションの結果を待ってから、以降の処理を実行します。
System0 がコーディネーションポイントの過半数に到達できない場合、VxFEN ドライバはシステム 0 から新たにシステム 1 を RACER として再選し、System1 はコーディネーションポイントへの競争を開始します。
システム 0 がコーディネータディスクの制御権を獲得し、システム 2 とシステム 3 の登録キーをディスクから削除したと仮定します。結果は次のとおりです。
- システム 0 がコーディネータディスクの制御権を獲得します。システム 0 のフェンシングモジュールは、WON_RACE を現在のクラスタ内の他のすべてのフェンシングモジュール（この場合はシステム 0 とシステム 1）に伝達します。 WON_RACE を受け取ると、各システムのフェンシングモジュールは成功を HAD に伝達します。システム 0 とシステム 1 は有効な現在のクラスタメンバーとして残ります。
- System1 に WON_RACE を送信する前に System0 が停止した場合、VxFEN は System0 から新たに System1 を RACER として再選し、System1 はコーディネーションポイントへの競争を開始します。
  コーディネーションポイントの過半数を獲得した System1 は有効なままとなり、System1 のクラスタとフェンシングモジュールの現在のメンバーは成功を HAD に伝えます。
- System2 はコーディネータディスクの制御権の獲得に失敗し、System 2 のフェンシングモジュールは LOST_RACE メッセージを送信します。システム 2 のフェシングモジュールはカーネルパニックを呼び出し、システムは再起動します。
- システム 3 はシステム 2 のカーネルパニックから別のメンバーシップの変更を認識します。システム 2 は、このサブクラスタでコーディネータディスクの制御権の獲得競争に参加したシステムであったため、システム 3 もパニックを起こします。
HAD は、メンバーシップの変更に基づいて、関連付けられたすべてのポリシーまたはリカバリ処理を実行します。
システム 2 とシステム 3 は、共有ストレージにアクセスできなくなります（システム 0 またはシステム 1 によって現在テイクオーバーされているサービスグループに共有ストレージが含まれていた場合）。
システム 2 とシステム 3 がクラスタに再参加するには、管理者は次の処理を実行する必要があります。
- システム 2 とシステム 3 をシャットダウンします。
- クラスタ相互接続リンクを解決します。
- システム 2 とシステム 3 を再起動します。