Recherche dans <book_title>…

Guide de l'administrateur Kubernetes sur l'interface utilisateur Web NetBackup™

Last Published: 2023-12-28

Product(s): NetBackup (10.3)

Platform: Linux,UNIX,Windows

L'opérateur NetBackup Kubernetes ne répond plus si la limite de PID est dépassée sur le nœud Kubernetes

Les systèmes Linux comportent un processus initd ou système en cours d'exécution en tant que PID 1 pour récolter des processus zombies. Les conteneurs qui n'ont pas de processus initd continuent à générer des processus zombies.

Après une certaine période, ces processus zombies s'accumulent, puis atteignent la limite maximale de PID définie sur le nœud Kubernetes.

Dans l'opérateur NetBackup Kubernetes, nbcertcmdtool engendre des processus enfants pour effectuer des opérations liées aux certificats. Lorsque l'opération est terminée, les processus deviennent orphelins et ne sont pas récoltés. Par la suite, la limite maximale de PID est atteinte et l'opérateur NetBackup Kubernetes ne répond plus.

Error message: login pod/nbukops-controller-manager-67f5498bbb-gn9zw -c netbackupkops -n nbukops ERRO[0005] exec failed: container_linux.go:380: starting container process caused: read init-p: connection reset by peer a command that is terminated with exit code 1.

Actions recommandées :

Pour résoudre le problème de dépassement de limite de PID, vous pouvez utiliser le script Initd. Le script Initd est utilisé en tant que processus parent ou script de point d'entrée sur le pod de contrôleur.
En tant que processus parent, il s'attache le processus zombie une fois le processus enfant terminé pour mettre fin au processus zombie persistant. Il permet également d'arrêter le conteneur normalement. Le script Initd est disponible dans la version 10.0.1 de NBUKOPs.
Utilisez les étapes suivantes pour supprimer les processus zombies nbcertcmdtool existants :

Décrivez le pod de l'opérateur NetBackup et recherchez le nœud Kubernetes sur lequel le pod de contrôleur s'exécute. Exécutez la commande suivante :
kubectl describe -c netbackupkops <NB k8s operator pod name> -n <namespace>
Connectez-vous au nœud Kubernetes, exécutez la commande suivante :
kubectl debug node/nodename
Terminez les processus zombies nbcertcmdtool, exécutez la commande suivante :
ps -ef | grep "\[nbcertcmdtool\] <defunct>" | awk '{print $3}' | xargs kill -9

Remarque :

Ces étapes mettent fin à tous les processus zombies pour ce nœud de travail. Mais il ne résout le problème que temporairement. Pour une solution permanente, vous devez déployer une nouvelle build KOps avec le script Initd.