NetBackup™ for Hadoop 管理者ガイド
- 概要
- NetBackup 用 NetBackup for Hadoop プラグインの前提条件およびベストプラクティス
- NetBackup for Hadoop の構成
- バックアップホストの管理
- NetBackup for Hadoop 構成ファイルを使用した NetBackup for Hadoop プラグインの構成
- Hadoop のバックアップとリストアの実行
- トラブルシューティング
- NetBackup for Hadoop データのバックアップ問題のトラブルシューティング
- NetBackup for Hadoop データのリストア問題のトラブルシューティング
バックアップおよびリストア時のパフォーマンスを向上するためのベストプラクティス
SSL 環境 (HTTPS) を使用した Hadoop のバックアップとリカバリ中に、スループットが低下したり、CPU 使用率が高くなるなどのパフォーマンスの問題が発生します。この問題は、Hadoop の内部通信が暗号化されていない場合に発生します。Hadoop の内部通信とパフォーマンスを改善するため、HDFS 構成を HDFS クラスタで正しく調整する必要があります。また、これにより、バックアップとリカバリのパフォーマンスも向上させることができます。
バックアップとリストアのパフォーマンスを向上させるために、NetBackup では、使用中の Apache または Hadoop 分散からの Hadoop 構成の推奨事項に従うことをお勧めします。
クラスタ内で Hadoop 暗号化を有効にしている場合は、使用中の Apache または Hadoop 分散の推奨事項に従って、Hadoop クラスタ内のデータ転送に使用する正しい暗号とビット長を選択します。
データブロック転送中に AES 128 をデータ暗号化に使用すると、バックアップおよびリストア時の NetBackup のパフォーマンスが向上します。
また、バックアップのパフォーマンスを向上させるために、Hadoop クラスタで複数のフォルダをバックアップする場合、バックアップホストの数を増やすこともできます。最大のメリットを得るには、Hadoop クラスタ内のフォルダごとに最大 1 つのバックアップホストを設定できます。
また、バックアップ操作中に NetBackup が Hadoop クラスタからデータをフェッチするために使用されるバックアップホストごとのスレッド数を増やすこともできます。数十 GB のサイズ範囲のファイルがある場合は、パフォーマンスを向上するためにスレッドの数を増やすことができます。スレッドのデフォルト数は 4 です。
並列ストリームに使用されるバックアップホストごとのストリーム数を増やすこともできます。
配置に最適なデータ配布アルゴリズムのいずれかを選択できます。
データセットに含まれる少数の大きいファイルで、配布アルゴリズム 1 を使用します。
データセットに含まれる多数の小さいファイルで、配布アルゴリズム 2 を使用します。
サイズが非常に大きい少数のファイルとサイズが小さい多数のファイルがデータセットに混在する場合は、配布アルゴリズムとゴールデン比率の適切な組み合わせを使用します。次の例を参照してください。
表: 多数の小さいファイルと少数の大きいファイルの例
データサイズ |
バックアップホストの数 |
スレッド数 |
ストリーム数 |
配布アルゴリズム |
ゴールデン比率 |
---|---|---|---|---|---|
最大 1 TB |
4 |
16 |
5 |
4 |
80 |
最大 50 TB |
5 |
32 |
5 |
4 |
80 |
> 50 TB |
6 |
32 |
5 |
4 |
80 |
詳しくは、『Apache Hadoop のマニュアル』のセキュアモードを参照してください。
さらに、パフォーマンスを最適化するために、次のことを確認します。
プライマリサーバーはバックアップホストとして使用されていません。
複数のポリシーが並行してトリガされるようにスケジュールされている場合:
すべてのポリシーで同じ検出ホストを使用しないようにします。
これらのポリシーでは、最後の Backup_Host エントリが異なります。
メモ:
検出ホストは、Backup_Host リストの最後のエントリです。