NetBackup™ for Hadoop 管理者ガイド
- 概要
- NetBackup 用 NetBackup for Hadoop プラグインの前提条件およびベストプラクティス
- NetBackup for Hadoop の構成
- バックアップホストの管理
- NetBackup for Hadoop 構成ファイルを使用した NetBackup for Hadoop プラグインの構成
- Hadoop のバックアップとリストアの実行
- トラブルシューティング
- NetBackup for Hadoop データのバックアップ問題のトラブルシューティング
- NetBackup for Hadoop データのリストア問題のトラブルシューティング
NetBackup for Hadoop データのバックアップ
NetBackup for Hadoop データは並列ストリームでバックアップされ、バックアップ時に NetBackup for Hadoop DataNodes はデータブロックを同時に複数のバックアップホストに対してストリームします。
メモ:
NetBackup for Hadoop バックアップ対象で指定されたすべてのディレクトリは、バックアップ前にスナップショット対応に設定する必要があります。
次の図は、バックアップフローの概要を示しています。
次の図に示されているようになります。
スケジュールされたバックアップジョブはプライマリサーバーからトリガされます。
NetBackup for Hadoop データのバックアップジョブは複合ジョブです。バックアップジョブがトリガされると、最初に検出ジョブが実行されます。
検出中に、最初のバックアップホストは NameNode と接続し、検出を実行して、バックアップする必要があるデータの詳細を取得します。
作業負荷検出ファイルは、バックアップホストに作成されます。作業負荷検出ファイルには、さまざまな DataNodes からバックアップする必要があるデータの詳細が含まれています。
バックアップホストは作業負荷検出ファイルを使用し、作業負荷が複数のバックアップホスト間でどのように分散されるかを決定します。作業負荷分散ファイルは、バックアップホストごとに作成されます。
バックアップホストごとに個別の子ジョブが実行されます。作業負荷分散ファイルで指定されたデータがバックアップされます。
データブロックは、異なる DataNodes から複数のバックアップホストに同時にストリームします。
すべての子ジョブが完了するまで、複合バックアップジョブは完了しません。子ジョブが完了すると、NetBackup は NameNode からすべてのスナップショットをクリーンアップします。クリーンアップ活動が完了した後にのみ、複合バックアップジョブは完了します。
NetBackup for Hadoop クラスタのバックアップについてを参照してください。