NetBackup™ Web UI Kubernetes 管理指南
- 适用于 Kubernetes 的 NetBackup 概述
- 部署和配置 NetBackup Kubernetes Operator
- NetBackup Kubernetes Operator 部署的前提条件
- 在 NetBackup Kubernetes Operator 上部署服务软件包
- Kubernetes Operator 部署的端口要求
- 升级 NetBackup Kubernetes Operator
- 删除 NetBackup Kubernetes Operator
- 配置 NetBackup Kubernetes 数据移动器
- 自动为 Kubernetes 配置 NetBackup 保护
- 配置 NetBackup 快照操作的设置
- 对具有短名称的 NetBackup 服务器进行故障排除
- datamover pod 调度机制支持
- 在 NetBackup Kubernetes Operator 上部署证书
- 管理 Kubernetes 资产
- 管理 Kubernetes 智能组
- 保护 Kubernetes 资产
- 管理映像组
- 在 NetBackup 中保护 Rancher 管理的群集
- 恢复 Kubernetes 资产
- 在 Kubernetes 中启用 FIPS 模式
- 对 Kubernetes 问题进行故障排除
- 主服务器升级期间出错:NBCheck 失败
- 旧映像还原期间出错:操作失败
- 永久卷恢复 API 期间出错
- 还原期间出错:最终作业状态显示部分失败
- 在同一命名空间上进行还原时出错
- datamover pod 超过 Kubernetes 资源限制
- 还原期间出错:高负载群集上的作业失败
- 为特定群集创建的自定义 Kubernetes 角色无法查看作业
- 从 OperatorHub 还原安装的应用程序时,Openshift 会创建空白非选定的 PVC
- 如果超过 Kubernetes 节点上的 PID 限制,NetBackup Kubernetes Operator 将变得无响应
- 在 NetBackup Kubernetes 10.1 中编辑群集时失败
- 对于大型 PVC,从快照还原失败
- 将命名空间文件模式 PVC 还原到不同文件系统时部分失败
- 从备份副本还原失败并显示映像不一致错误
- NetBackup 主服务器、介质服务器和 Kubernetes 服务器之间的连接检查。
如果超过 Kubernetes 节点上的 PID 限制,NetBackup Kubernetes Operator 将变得无响应
在 Linux 系统中,有一个以 PID 1 身份运行的 initd 或系统进程来接收僵尸进程。没有此类 initd 进程的容器会不断生成僵尸进程。
在一定的时间段后,这些僵尸进程会累积,然后达到在 Kubernetes 节点上设置的 PID 的最大限制。
在 NetBackup Kubernetes Operator 中,nbcertcmdtool 会生成子进程以执行证书相关操作。操作完成后,这些进程将变为孤儿进程,并且不会被接收。最终达到最大 PID 限制,NetBackup Kubernetes Operator 变得无响应。
Error message: login pod/nbukops-controller-manager-67f5498bbb-gn9zw -c netbackupkops -n nbukops ERRO[0005] exec failed: container_linux.go:380: starting container process caused: read init-p: connection reset by peer a command that is terminated with exit code 1.
推荐的操作:
要解决超过 PID 限制的问题,可以使用 Initd 脚本。Initd 脚本充当控制器 pod 的父进程或入口点脚本。
作为父进程,它在子进程完成后将僵尸进程附加到自身,以终止持久性僵尸进程。它还帮助您正常关闭容器。Initd 脚本在 NBUKOPs 内部版本 10.0.1 中可用。
使用以下步骤删除现有的 nbcertcmdtool 僵尸进程:
描述 NetBackup Operator pod 并找到正在运行控制器 pod 的 Kubernetes 节点。运行命令:
kubectl describe -c netbackupkops <NB k8s operator pod name> -n <namespace>
登录到 Kubernetes 节点,运行以下命令:
kubectl debug node/nodename
终止 nbcertcmdtool 僵尸进程,运行以下命令:
ps -ef | grep "\[nbcertcmdtool\] <defunct>” | awk '{print $3}' | xargs kill -9
注意:
这些步骤将终止该工作节点的所有僵尸进程,但会暂时解决这个问题。要获得永久解决方案,必须部署带有 Initd 脚本的新 KOps 内部版本。