Guide de l'administrateur NetBackup™ for Hadoop
- Introduction
- Conditions préalables et pratiques d'excellence pour le plug-in NetBackup for Hadoop for NetBackup
- Configuration de NetBackup for Hadoop
- Gestion des hôtes de sauvegarde
- Configuration du plug-in NetBackup for Hadoop en utilisant le fichier de configuration NetBackup for Hadoop
- Configuration de la communication entre les clusters NetBackup et Hadoop compatibles SSL (HTTPS)
- Sauvegardes et restaurations de Hadoop
- Dépannage
- Résolution des problèmes de sauvegarde des données NetBackup for Hadoop
- Résolution des problèmes de restauration des données NetBackup for Hadoop
Pratique d'excellence pour améliorer les performances lors de la sauvegarde et de la restauration
Des problèmes de performances (diminution du débit, utilisation élevée de l'UC) peuvent se produire lors de la sauvegarde et de la récupération de Hadoop à l'aide de l'environnement SSL (HTTPS) lorsque les communications internes dans Hadoop ne sont pas chiffrées. Les configurations HDFS doivent être paramétrées correctement dans le cluster HDFS afin d'améliorer la communication interne et les performances dans Hadoop, ce qui peut également améliorer les performances de sauvegarde et de récupération.
Pour de meilleures performances de sauvegarde et de restauration, NetBackup recommande de suivre les recommandations de configuration de Hadoop des distributions Apache ou Hadoop utilisées.
Si le chiffrement Hadoop est activé dans le cluster, suivez les recommandations des distributions Apache ou Hadoop utilisées pour sélectionner le chiffrement et la longueur de bit appropriés pour le transfert de données dans le cluster Hadoop.
L'utilisation d'AES 128 pour le chiffrement des données lors du transfert de blocs de données permet d'améliorer les performances de sauvegarde et de récupération de NetBackup.
Vous pouvez également augmenter le nombre d'hôtes de sauvegarde lors d'une sauvegarde pour obtenir de meilleures performances, notamment lorsque plusieurs dossiers du cluster Hadoop doivent être sauvegardés. Vous pouvez utiliser jusqu'à un hôte de sauvegarde par dossier dans le cluster Hadoop pour des performances optimales.
Vous pouvez également, pour chaque hôte de sauvegarde, augmenter le nombre de threads utilisés par NetBackup pour récupérer les données du cluster Hadoop lors de l'opération de sauvegarde. Si vos fichiers pèsent plusieurs dizaines de gigaoctets, vous pouvez augmenter le nombre de threads pour de meilleures performances. Le nombre de threads par défaut est 4.
Vous pouvez également augmenter le nombre de flux par hôte de sauvegarde qui sont utilisés pour le flux parallèle.
Vous pouvez choisir l'un des algorithmes de distribution de données les mieux adaptés à votre déploiement :
Pour un petit nombre de fichiers volumineux dans votre ensemble de données, utilisez l'algorithme de distribution 1.
Pour un grand nombre de fichiers peu volumineux dans votre ensemble de données, utilisez l'algorithme de distribution 2.
Pour une combinaison d'un petit nombre de fichiers volumineux et d'un grand nombre de fichiers peu volumineux dans votre ensemble de données, utilisez la combinaison appropriée d'algorithme de distribution et de nombre d'or. Consultez l'exemple ci-dessous :
Tableau : Exemple pour un grand nombre de fichiers peu volumineux et un petit nombre de fichiers volumineux
Taille des données |
Nombre d'hôtes de sauvegarde |
Nombre de threads |
Nombre de flux |
Algorithme de distribution |
Nombre d'or |
---|---|---|---|---|---|
Jusqu'à 1 To |
4 |
16 |
5 |
4 |
80 |
Jusqu'à 50 To |
5 |
32 |
5 |
4 |
80 |
> 50 To |
6 |
32 |
5 |
4 |
80 |
Pour plus d'informations, consultez la documentation Apache Hadoop relative au mode sécurisé.
De plus, pour des performances optimales, vérifiez ce qui suit :
Le serveur principal n'est pas utilisé comme hôte de sauvegarde.
Si plusieurs politiques sont planifiées pour être déclenchées en parallèle :
Évitez d'utiliser le même hôte de découverte dans toutes les politiques.
La dernière entrée Backup_Host est différente pour ces politiques.
Remarque :
L'hôte de découverte est la dernière entrée dans la liste Backup_Host.