Guide de l'administrateur NetBackup™ for Hadoop
- Introduction
- Conditions préalables et pratiques d'excellence pour le plug-in NetBackup for Hadoop for NetBackup
- Configuration de NetBackup for Hadoop
- Gestion des hôtes de sauvegarde
- Configuration du plug-in NetBackup for Hadoop en utilisant le fichier de configuration NetBackup for Hadoop
- Configuration de la communication entre les clusters NetBackup et Hadoop compatibles SSL (HTTPS)
- Sauvegardes et restaurations de Hadoop
- Dépannage
- Résolution des problèmes de sauvegarde des données NetBackup for Hadoop
- Résolution des problèmes de restauration des données NetBackup for Hadoop
Sauvegarde des données NetBackup for Hadoop
Les données NetBackup for Hadoop sont sauvegardées dans des flux parallèles dans lesquels les DataNodes NetBackup for Hadoop transmettent les blocs de données simultanément à plusieurs hôtes de sauvegarde.
Remarque :
Les snapshots doivent être activés sur tous les répertoires spécifiés dans la sélection de sauvegarde NetBackup for Hadoop avant la sauvegarde.
Le diagramme suivant présente le flux de sauvegarde :
Comme illustré dans le diagramme suivant :
Un travail de sauvegarde planifié est déclenché à partir du serveur principal.
Le travail de sauvegarde pour les données NetBackup for Hadoop est un travail composé. Quand le travail de sauvegarde est déclenché, un travail de découverte est exécuté en premier.
Pendant la découverte, le premier hôte de sauvegarde se connecte au NameNode et effectue une découverte pour obtenir des informations sur les données à sauvegarder.
Un fichier de découverte de charge de travail est créé sur l'hôte de sauvegarde. Le fichier de découverte de charge de travail contient les informations des données à sauvegarder à partir des différents DataNodes.
L'hôte de sauvegarde utilise le fichier de découverte de charge de travail et détermine la manière dont cette dernière est répartie entre les hôtes de sauvegarde. Des fichiers de distribution de la charge de travail sont créés pour chaque hôte de sauvegarde.
Des travaux enfants individuels sont exécutés pour chaque hôte de sauvegarde. Comme spécifié dans les fichiers de distribution de la charge de travail, les données sont sauvegardées.
Les blocs de données sont transmis simultanément à partir de différents DataNodes à plusieurs hôtes de sauvegarde.
Le travail de sauvegarde composé ne peut pas se terminer tant que des travaux enfants sont en cours. Une fois les travaux enfants terminés, NetBackup nettoie tous les snapshots du NameNode. Ce n'est qu'à la fin du nettoyage que le travail de sauvegarde composé est terminé.
Se reporter à À propos de la sauvegarde d'un cluster NetBackup for Hadoop.