Veritas InfoScale™ 8.0 トラブルシューティングガイド - Solaris

Last Published:
Product(s): InfoScale & Storage Foundation (8.0)
Platform: Solaris
  1. はじめに
    1.  
      Veritas Storage Foundation and High Availability Solutions 製品のトラブルシューティングについて
    2.  
      Veritas SORT (Services and Operations Readiness Tools) について
    3. 一意のメッセージ ID について
      1.  
        Veritas Operations Readiness Tools を使用した一意のメッセージ ID の説明と解決法の検索
    4. デバッグ用のアプリケーションおよびデーモンコアデータの収集について
      1.  
        vxgetcore でデバッグデータを自動的に見つけるようにする (最も簡単な方法)
      2.  
        コアファイルの場所がわかっている場合の vxgetcore の実行
      3.  
        vxgetcore で情報の入力を求めるメッセージを表示する
  2. 第 I 部 Veritas File System のトラブルシューティング
    1. 診断メッセージ
      1. 障害に対するファイルシステムの応答
        1.  
          無効にしたファイルシステムのリカバリ
      2.  
        カーネルメッセージについて
  3. 第 II 部 Veritas Volume Manager のトラブルシューティング
    1. ハードウェア障害からのリカバリ
      1.  
        ハードウェア障害からのリカバリについて
      2.  
        起動不能なボリュームの一覧表示
      3.  
        ボリュームとプレックスの状態の表示
      4.  
        プレックスの状態遷移
      5.  
        起動不能なミラーボリュームのリカバリ
      6.  
        RECOVER 状態の無効にされたプレックスが存在する起動不能なボリュームのリカバリ
      7.  
        起動不能なボリュームの強制的な再起動
      8.  
        ディスクでの failing フラグのクリア
      9.  
        障害が発生したディスクの再接続
      10.  
        失敗したプレックスの接続操作または同期操作のリカバリ
      11. RAID 5 ボリュームの障害
        1.  
          システム障害
        2.  
          ディスク障害
        3.  
          RAID 5 のデフォルトの起動リカバリプロセス
        4. RAID 5 ボリュームのリカバリ
          1.  
            RAID 5 ボリューム上のパリティの再同期
          2.  
            障害の発生した RAID 5 ログプレックスの再接続
          3.  
            RAID 5 ボリューム内の無効なサブディスクのリカバリ
        5.  
          RAID 5 サブディスクを移動した後のリカバリ
        6. 起動できない RAID 5 ボリューム
          1.  
            無効なサブディスクを持つ RAID 5 ボリュームの強制的な起動
      12.  
        ディスクグループの不完全な移動のリカバリ
      13.  
        クラスタ内の一部のノードが使用できない場合のリカバリ後のボリュームの再起動
      14. DCO ボリュームの障害からのリカバリ
        1.  
          バージョン 0 の DCO ボリュームのリカバリ
        2.  
          インスタントスナップ DCO ボリュームのリカバリ(バージョン 20 以降)
    2. インスタントスナップショット障害からのリカバリ
      1.  
        vxsnap prepare の障害からのリカバリ
      2.  
        フルサイズインスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      3.  
        ブレークオフインスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      4.  
        領域最適化インスタントスナップショット作成時の vxsnap make の失敗からのリカバリ
      5.  
        vxsnap restore の障害からのリカバリ
      6.  
        vxsnap refresh の障害からのリカバリ
      7.  
        コピーオンライトの失敗からのリカバリ
      8.  
        再同期中に発生する I/O エラーからのリカバリ
      9.  
        DCO ボリュームでの I/O エラーからのリカバリ
      10.  
        インスタントスナップのデータ変更オブジェクト(DCO)の vxsnap アップグレードの障害からのリカバリ
    3. 失敗した vxresize 操作のリカバリ
      1.  
        失敗した vxresize 縮小操作のリカバリ
    4. ブートディスク障害からのリカバリ
      1.  
        VxVM とブートディスク障害
      2.  
        root、swap、usr の設定について
      3.  
        Solaris SPARC システム上の代替ブートディスクからの起動
      4.  
        Solaris SPARC システムでのブートプロセス
      5. ホットリロケーションとブートディスク障害
        1.  
          交換用ブートディスクへのサブディスク再配置の解除
      6. 起動エラーからのリカバリ
        1.  
          ブートデバイスがオープンできない
        2.  
          使用不可または無効のプレックスから起動できない
        3.  
          UNIX パーティションが無効
        4. /etc/vfstab のエントリが不正
          1.  
            /etc/vfstab 内のルート(/)エントリの破損
          2.  
            /etc/vfstab 内の /usr エントリの破損
        5. 設定ファイルの紛失または破損
          1.  
            システム設定ファイルのコピーのリストア
          2.  
            ルートディスクの /etc/system のコピーが使えない場合のリストア
      7. ミラーボリュームの root または /usr ファイルシステムの修復
        1.  
          バックアップからのルートディスクとルートミラーのリカバリ
      8. ブートディスクの交換
        1.  
          障害が発生したブートディスクの再追加
        2.  
          障害が発生したブートディスクの交換
      9. 再インストールによるリカバリ
        1.  
          一般的な再インストール情報
        2. システムの再インストールと VxVM のリカバリ
          1.  
            システムの再インストールの準備
          2.  
            オペレーティングシステムの再インストール
          3.  
            Veritas Volume Manager の再インストール
          4.  
            Veritas Volume Manager 設定のリカバリ
          5.  
            システム構成のクリーンアップ
    5. コマンド、タスク、トランザクションの管理
      1.  
        コマンドログ
      2.  
        タスクログ
      3.  
        トランザクションログ
      4.  
        コマンドログ、タスクログ、トランザクションログの関連付け
      5.  
        スレーブから発行された CVM コマンドのマスターノードへの関連付け
      6.  
        コマンド入力補完機能が有効になっていない
    6. ディスクグループ設定データのバックアップとリストア
      1.  
        ディスクグループ設定のバックアップの概要
      2.  
        ディスクグループ設定のバックアップ
      3. ディスクグループ設定のリストア
        1.  
          ディスクグループの競合バックアップの解決
      4.  
        FSS ディスクグループ設定データのバックアップと復元
    7. ディスクグループのインポートを使った問題のトラブルシューティング
      1.  
        非クローンディスクに対する udid_mismatch フラグの消去
    8. CDS エラーからの回復
      1.  
        CDS エラーコードと回復アクション
    9. ログおよびエラーメッセージ
      1.  
        エラーメッセージについて
      2. エラーメッセージの記録方法
        1.  
          起動スクリプトでのログの設定
      3. メッセージのタイプ
        1.  
          メッセージ
      4. カーネルレベルのログ記録のための VxLogger の使用
        1.  
          カーネルレベルのログ記録のためのチューニングパラメータ設定
      5.  
        トラブルシューティング用のログ情報の収集
    10. Veritas Volume Replicator のトラブルシューティング
      1.  
        RLINK 接続問題のリカバリ
      2. 設定エラーのリカバリ
        1. RLINK 接続中のエラー
          1.  
            RLINK 接続中のデータボリュームエラー
          2.  
            RLINK 接続中のボリュームセットのエラー
        2. RVG 変更中のエラー
          1.  
            RVG 修正中に発生するデータボリューム紛失に関するエラー
          2.  
            RVG の変更中のデータボリューム不一致のエラー
          3.  
            RVG 修正中に発生するデータボリューム名の不一致に関するエラー
          4. RVG の変更中のボリュームセットの設定エラー
            1.  
              ボリュームセット名の不一致エラー
            2.  
              ボリュームインデックスの不一致エラー
            3.  
              コンポーネントボリュームの不一致エラー
      3. プライマリまたはセカンダリでのリカバリ
        1.  
          プライマリホストのクラッシュからのリカバリについて
        2. プライマリのデータボリュームエラーのリカバリ
          1.  
            例 - RLINK を切断した状態でのリカバリ
          2.  
            例 - 最小限の修復でのリカバリ
          3.  
            例 - プライマリの移行によるリカバリ
          4.  
            例 - 一時的な I/O エラーからのリカバリ
        3. プライマリ SRL ボリュームのエラーの解決と再起動
          1.  
            RVG の PASSTHRU モードについて
        4.  
          再起動時のプライマリ SRL ボリュームのエラー
        5.  
          プライマリ SRL ボリュームオーバーフローのリカバリ
        6. プライマリ SRL ヘッダーのエラーの解決とリカバリ
          1.  
            SRL ヘッダーエラーのリカバリ
        7. セカンダリのデータボリュームのエラーの解決とリカバリ
          1.  
            セカンダリストレージチェックポイントを使ったリカバリ
          2.  
            プライマリストレージチェックポイントを使ったクリーンアップ
        8.  
          セカンダリの SRL ボリュームのエラーの解決とリカバリ
        9.  
          セカンダリ SRL ヘッダーのエラー解決とリカバリ
        10.  
          再ブート時のセカンダリ SRL ヘッダーのエラー
  4. 第 III 部 Dynamic Multi-Pathing のトラブルシューティング
    1. Dynamic Multi-Pathing のトラブルシューティング
      1.  
        DMP へのアップグレードの後の拡張属性の表示
      2.  
        DMP からパスを除外または DMP にパスを追加するときのエラーのリカバリ
      3.  
        アレイサポートのダウングレード
      4.  
        dmp_native_support チューニングパラメータを有効にした後のシステムブート不可
  5. 第 IV 部 Storage Foundation Cluster File System High Availability のトラブルシューティングについて
    1. Storage Foundation Cluster File System High Availability のトラブルシューティングについて
      1.  
        Storage Foundation Cluster File System High Availability のトラブルシューティングについて
      2. CFS のトラブルシューティング
        1.  
          root ユーザーの <library> パスの順序が正しくない
        2.  
          CFS コマンドは root 以外のユーザーによって実行された場合にハングアップすることがある
      3. フェンシングが有効な設定のトラブルシューティング
        1.  
          既存のネットワーク分割(スプリットブレイン)の例
        2. 既存のネットワーク分割(スプリットブレイン)からのリカバリ
          1.  
            シナリオ I
          2.  
            シナリオ II
          3.  
            シナリオ III
      4. Veritas InfoScale products クラスタの Cluster Volume Manager のトラブルシューティング
        1.  
          CVM グループが Veritas InfoScale products クラスタへのノード追加後オンラインではない
        2.  
          共有ディスクグループを Veritas InfoScale products クラスタにインポートできない
        3.  
          Veritas InfoScale products クラスタで CVM を起動できない
        4.  
          すでに存在するキーの削除
        5.  
          CVMCluster が Veritas InfoScale products クラスタでオンラインでも CVMVolDg がオンラインにならない
        6.  
          Veritas InfoScale products クラスタに共有ディスクが表示されない
  6. 第 V 部 Cluster Server のトラブルシューティング
    1. VCS のトラブルシューティングおよびリカバリ
      1. VCS メッセージログ
        1.  
          VCS エージェントのエントリポイントのログ統合
        2.  
          VCS リソースの予期しない動作をトラブルシューティングするための FFDC(First Failure Data Capture)の強化
        3.  
          GAB メッセージのログ
        4.  
          エージェントのデバッグログの有効化
        5.  
          IMF のデバッグログの有効化
        6.  
          VCS エンジンのデバッグログの有効化
        7.  
          デバッグログのタグの使用法について
        8. サポート分析用の VCS 情報の収集
          1.  
            CPU、メモリ、スワップの計測または予測された値の確認
        9.  
          サポート分析用に LLT と GAB の情報を収集する
        10.  
          サポート分析用の IMF 情報の収集
        11.  
          メッセージカタログ
      2. VCS エンジンのトラブルシューティング
        1.  
          HAD の診断
        2.  
          HAD が動作していない
        3.  
          HAD が繰り返し再起動される
        4.  
          GAB が HAD を強制終了する原因となる DNS の設定上の問題
        5.  
          シーディングと I/O フェンシング
        6.  
          preonline IP チェック
      3. LLT(Low Latency Transport)のトラブルシューティング
        1.  
          LLT 起動スクリプトでエラーが表示される
        2.  
          LLT がクロスリンクの使用を検出する
        3.  
          LLT リンクの状態メッセージ
        4.  
          UDP で設定された LLT を停止する際に、予期していない db_type であるとの警告が出される
      4. GAB(Group Membership Services/Atomic Broadcast)のトラブルシューティング
        1.  
          ポート再開放の遅延
        2.  
          クライアントプロセスの障害が原因でノードがパニック状態になる
      5. VCS の起動に関するトラブルシューティング
        1.  
          「VCS: 10622 ローカルの設定がありません(VCS: 10622 local configuration missing)」と「VCS: 10623 ローカルの設定が無効です(VCS: 10623 local configuration invalid)」
        2.  
          「VCS:11032 登録が失敗しました。終了します。(registration failed. Exiting)」【前のセグメントに統合】
        3.  
          "クラスタのメンバーシップを待っています(Waiting for cluster membership)"
      6.  
        IMF(Intelligent Monitoring Framework)のトラブルシューティング
      7. サービスグループに関するトラブルシューティング
        1.  
          VCS はサービスグループを自動的に起動しない
        2.  
          システムが RUNNING 状態にならない
        3.  
          あるシステムでサービスグループがオンラインにならない
        4.  
          サービスグループが自動起動しない
        5.  
          サービスグループがフリーズしている
        6.  
          フェールオーバーサービスグループが、別のシステムでオンラインになっている
        7.  
          重大なリソース障害が発生した
        8.  
          サービスグループが自動無効化の状態になっている
        9.  
          リソースがオンラインまたはオフラインになるまでサービスグループが待機している
        10.  
          依存関係が満たされるまでサービスグループが待機している
        11.  
          サービスグループのプローブが完了していない
        12.  
          サービスグループが予想されたシステムにフェールオーバーしない
        13.  
          FailOverPolicy が BiggestAvailable に設定されているのに、サービスグループが BiggestAvailable システムにフェールオーバーしない
        14.  
          VCS で作成されるバックアップからの測定データベースの復元
        15.  
          測定データベースの初期化の失敗
      8. リソースに関するトラブルシューティング
        1.  
          サービスグループがフェールオーバーによってオンライン化された
        2.  
          サービスグループの状態遷移を待っている
        3.  
          子リソースがオンラインになるのを待っている
        4.  
          親リソースがオフラインになるのを待っている
        5.  
          リソースからの応答を待っている
        6. エージェントが動作していない
          1.  
            無効なエージェントの引数
        7.  
          ディスクグループが無効な場合でも、ディスクグループエージェントの monitor エントリポイントが ONLINE を返す
      9. I/O フェンシングのトラブルシューティング
        1.  
          他のノードが除外されている間、ノードはクラスタを参加させられない
        2.  
          SCSI TEST UNIT READY コマンドが失敗すると、vxfentsthdw ユーティリティが失敗する
        3.  
          SCSI-3 ディスクから手動で既存のキーを削除する
        4. システムパニックによって潜在的なデータ破損が防止される
          1.  
            各種のイベントシナリオにおける I/O フェンシングの動作
        5.  
          コーディネータディスクの I/O フェンシングキーのクラスタ ID がローカルクラスタの ID と一致しない
        6. フェンシングの起動時にすでに発生しているスプリットブレイン状態が報告される
          1.  
            すでに発生しているスプリットブレイン状態のクリア
        7.  
          登録済みのキーがコーディネータディスクから失われている
        8.  
          クラスタがオフラインになっているときに不具合のあるディスクの置換
        9.  
          rcp または scp コマンドが機能していないと vxfenswap ユーティリティが終了する
        10. CP サーバーのトラブルシューティング
          1.  
            CP サーバーサービスグループに関連する問題のトラブルシューティング
          2.  
            CP サーバーの接続の確認
        11. Veritas InfoScale products クラスタノードでのサーバーベースのフェンシングのトラブルシューティング
          1.  
            サーバーベースのフェンシング用に設定された VCS ノードでのフェンシング起動時の問題
        12. コーディネーションポイントのオンライン移行中の問題
          1.  
            vxfenswap コマンド実行後の vxfen サービスグループのアクティビティ
      10. 通知に関するトラブルシューティング
        1.  
          SNMP による通知を設定しても、SNMP コンソールにトラップが表示されない
      11. グローバルクラスタのトラブルシューティングとリカバリ
        1.  
          災害宣言
        2.  
          失われたハートビートと照会の機構
        3. VCS のアラート
          1.  
            アラートのタイプ
          2.  
            アラートの管理
          3.  
            アラートに関連付けられたアクション
          4.  
            取り消しイベント
          5.  
            起動時の同時性違反
      12.  
        Steward プロセスのトラブルシューティング
      13. ライセンスに関するトラブルシューティング
        1.  
          ライセンスキーの検証
        2. ライセンスのエラーメッセージ
          1.  
            [Licensing] Insufficient memory to perform operation
          2.  
            [Licensing] No valid VCS license keys were found
          3.  
            [Licensing] Unable to find a valid base VCS license key
          4.  
            [Licensing] License key can not be used on this OS platform
          5.  
            [Licensing] VCS evaluation period has expired
          6.  
            [Licensing] License key can not be used on this system
          7.  
            [Licensing] Unable to initialize the licensing framework
          8.  
            [Licensing] QuickStart is not supported in this release
          9.  
            [Licensing] Your evaluation period for the feature has expired.This feature will not be enabled the next time VCS starts
      14.  
        CPU、メモリ、スワップの計測または予測された値の確認
  7. 第 VI 部 SFDB のトラブルシューティング
    1. SFDB のトラブルシューティング
      1.  
        Storage Foundation for Databases(SFDB)ツールのトラブルシューティングについて

RLINK 接続問題のリカバリ

この項では、RLINK に関して発生する可能性があるエラーについて説明します。RLINK 接続問題のトラブルシューティングを行うには、RLINK 接続プロセスを理解しておくことが重要です。

プライマリ側とセカンダリ側の RLINK の接続は、2 段階の操作で行われます。最初の段階は RLINK の設定で、vradmin startrep コマンドで実行します。次の段階は、RLINK の接続で、プライマリホストとセカンダリホスト上のカーネルで実行します。

vradmin startrep コマンドが発行されると、VVR は操作が成功する可能性が高いことを確認するためにいくつかのチェックを実行し、成功した場合、このコマンドによって RLINK の状態が DETACHED/STALE から ENABLED/ACTIVE に遷移します。その後、コマンドは操作が成功したことを示すメッセージを返します。

コマンドが成功した場合、プライマリ上のカーネルには RLINK が有効になったことが通知され、接続を要求しているセカンダリへメッセージの送信を開始します。通常は、セカンダリはこのメッセージを受信して、プライマリと接続されます。接続されると、RLINK の状態は ENABLED/ACTIVE から CONNECT/ACTIVE に遷移します。

RLINK が短時間のうちに CONNECT/ACTIVE 状態に遷移しない場合は、何か問題が存在していて、接続を妨げています。この章では、可能性として考えられるさまざまな原因について説明します。問題を示すエラーメッセージが、コンソールに表示されることもあります。

  • コンソールに次のエラーメッセージが表示されている場合

    VxVM VVR vxrlink INFO V-5-1-5298 Unable to establish connection
     with remote host <remote_host>, retrying

    vradmind デーモンがプライマリホストとセカンダリホスト上で実行されていることを確認してください。実行されていない場合は、次のコマンドを実行して vradmind デーモンを起動してください。

    # /usr/sbin/vxstart_vvr

    共有ディスクグループ内の RLINK について、RLINK の仮想 IP アドレスがログ所有者上で有効になっていることを確認してください。

  • エラーメッセージで原因が明らかにされていない場合は、次のコマンドをプライマリホストとセカンダリホストの両方で実行します。

    # vxprint -g diskgroup -l rlink_name

    表示された出力で、次の点を確認します。

    各ホストの remote_host が他のホストの local_host と同じであること。

    各ホストの remote_dg が他のホスト上の RVG のディスクグループと同じであること。

    各ホストの remote_dg_dgidvxprint -l diskgroup コマンドの出力に表示される他のホスト上の RVG の dgid (ディスクグループ ID) と同じであること。

    各ホストの remote_rlink が他のホスト上の対応する RLINK の名前と同じであること。

    各ホストの remote_rlink_rid が他のホスト上の対応する RLINK の rid と同じであること。

    ネットワークが正常に機能していることを確認します。ネットワークに問題が発生すると、RLINK の接続を妨げたり、処理効率を低下させるなど、VVR に影響を与える可能性があります。可能性として考えられる問題は、過大なネットワーク遅延、帯域幅の不足、コリジョンの多発および過度のパケット破棄です。

  • 専用ディスクグループ内の RLINK に対して、各ホストで次のコマンドを実行します。

    共有ディスクグループ内の RLINK に対して、vxprint -Vl | grep logowner を使用して logowner ノードを探し、プライマリおよびセカンダリの logowner に対して次のコマンドを発行します。

    # ping -s remote_host

    メモ:

    このコマンドは、ICMP ping が VVR プライマリと VVR セカンダリの間で許可されている場合にのみ有効です。

    10 回繰り返した後、Ctrl+C を押します。パケットロスはまったくない、またはごくわずかであるべきです。ネットワークが大きいパケットを確実に転送できるようにするには、専用ディスクグループ内の RLINK に対して、各ホストで次のコマンドを実行します。

    共有ディスクグループ内の RLINK に対して、プライマリとセカンダリのログ所有者で次のコマンドを実行します。

    # ping -I 2 remote_host 8192

    パケット損失については、先に実行した ping コマンドと同様である必要があります。

  • 各ホスト上で vxiod コマンドを発行して、アクティブな I/O デーモンが存在することを確認します。出力が 0 volume I/O daemons running の場合は、次のコマンドを発行して I/O デーモンをアクティブ化します。

    # vxiod set 10
  • VVR は、特定のポートを使って他のホストとの通信を確立します。

    ポート番号を表示するには、次のコマンドを実行します。

    # vxprint -g diskgroup -l rlink_name

    次のコマンドを実行して、出力されたハートビートのポート番号が vxprint コマンドによって表示されたポートと一致することを確認します。

    # vrport

    次のコマンドを実行して、ハートビートポートの状態が Idle であることを確認します。

    # netstat -an -P udp

    次のような結果が出力されます。

    UDP: IPv4
        Local Address         Remote Address        State
        --------------------  --------------------  -------
        *.port-number                                  Idle
  • プライマリサイトとセカンダリサイトの VVR ポートを調べます。

    vrport ユーティリティを実行し、両方のサイトでポートが同じであることを検証します。

    必要な VVR ポートが開いているかどうかを調べます。UDP 4145、TCP 4145、TCP 8199、Anonymous ポートを調べます。次のコマンドを入力します。

    # netstat -an -P udp | grep 4145
    *.4145                         Idle
    *.4145                                                     Idle
    # netstat -an -P tcp | grep 4145
    *.4145          *.*                0      0 49152      0 LISTEN
    *.4145                          *.*                             0      0 49152      0 LISTEN
    # netstat -an -P tcp | grep 8199
    *.8199          *.*                0      0 49152      0 LISTEN
    10.180.162.41.32990  10.180.162.42.8199   49640      0 49640      0 ESTABLISHED
    *.8199                          *.*                             0      0 49152      0 LISTEN    
     

    telnet によるテストを実行して、開いているポートを調べます。たとえば、ポート 4145 が開いているかどうかを判断するには、次のコマンドを入力します。

    # telnet <remote> 4145
  • vradmind デーモンがプライマリサイトとセカンダリサイトとの間で接続を確立できるかどうかを調べるには、netstat コマンドを使います。

    # netstat -an -P tcp | grep 8199 | grep ESTABLISHED
     10.180.162.41.32990  10.180.162.42.8199   49640      0 49640      0 ESTABLISHED

    確立された接続がない場合は、/etc/hosts ファイルにプライマリサイトとセカンダリサイトのエントリがあるかどうかを調べます。関係するすべてのシステム名と IP アドレスを各システムの /etc/hosts ファイルに追加するか、使っているネームサービスのネームサーバーデータベースに情報を追加します。

  • Solaris 11 で、手動で /etc/hosts ファイルを編集してループバックアドレスの行からホスト名を削除する必要があります。

    次に例を示します。

    ::1 seattle localhost
    127.0.0.1 seattle loghost localhost

    次のように変更する必要があります。

    ::1 localhost
    127.0.0.1 loghost localhost
    129.148.174.232 seattle