NetBackup™ Web UI Kubernetes 管理指南

Last Published:
Product(s): NetBackup & Alta Data Protection (10.1.1)
  1. 适用于 Kubernetes 的 NetBackup 概述
    1.  
      概述
    2.  
      Kubernetes 支持的 NetBackup 功能
  2. 部署和配置 NetBackup Kubernetes Operator
    1.  
      在 NetBackup Kubernetes Operator 上部署服务软件包
    2.  
      Kubernetes Operator 部署的端口要求
    3.  
      升级 NetBackup Kubernetes Operator
    4.  
      删除 NetBackup Kubernetes Operator
    5.  
      配置 NetBackup Kubernetes datamover
    6. 配置 NetBackup 快照操作的设置
      1.  
        受 Kubernetes Operator 支持的配置参数
      2.  
        从快照备份和从备份还原操作的前提条件
      3.  
        Kubernetes 中支持的 DTE 客户端设置
      4.  
        自定义 datamover 属性
    7.  
      对具有短名称的 NetBackup 服务器进行故障排除
  3. 管理映像组
    1. 关于映像组
      1.  
        映像失效
      2.  
        映像副本
  4. 在 NetBackup Kubernetes Operator 上部署证书
    1.  
      在 Kubernetes Operator 上部署证书
    2.  
      执行基于主机 ID 的证书操作
    3.  
      执行 ECA 证书操作
    4.  
      标识证书类型
  5. 管理 Kubernetes 资产
    1.  
      添加 Kubernetes 群集
    2. 配置设置
      1.  
        配置资源限制设置
      2.  
        配置自动发现频率
      3.  
        配置权限
    3.  
      为资产添加保护
    4.  
      文件模式卷支持
  6. 管理 Kubernetes 智能组
    1.  
      关于智能组
    2.  
      创建智能组
    3.  
      删除智能组
    4.  
      编辑智能组
  7. 保护 Kubernetes 资产
    1.  
      保护智能组
    2.  
      从智能组中删除保护
    3.  
      配置备份计划
    4.  
      配置备份选项
    5.  
      配置备份
    6.  
      配置自动映像复制 (AIR) 和复制
    7.  
      配置存储单元
    8.  
      文件模式卷支持
  8. 恢复 Kubernetes 资产
    1.  
      浏览并验证恢复点
    2.  
      从快照还原
    3.  
      从备份副本还原
  9. 对 Kubernetes 问题进行故障排除
    1.  
      主服务器升级期间出错:NBCheck 失败
    2.  
      旧映像还原期间出错:操作失败
    3.  
      永久卷恢复 API 期间出错
    4.  
      还原期间出错:最终作业状态显示部分失败
    5.  
      在同一命名空间上进行还原时出错
    6.  
      datamover pod 超过 Kubernetes 资源限制
    7.  
      还原期间出错:高负载群集上的作业失败
    8.  
      为特定群集创建的自定义 Kubernetes 角色无法查看作业
    9.  
      从 OperatorHub 还原安装的应用程序时,Openshift 会创建空白非选定的 PVC
    10.  
      从 OperatorHub 还原安装的应用程序时,Openshift 会创建空白非选定的 PVC
    11.  
      如果超过 Kubernetes 节点上的 PID 限制,NetBackup Kubernetes Operator 将变得无响应
    12.  
      在 NetBackup Kubernetes 10.1 中编辑群集时失败
    13.  
      对于大型 PVC,从快照还原失败
    14.  
      将命名空间文件模式 PVC 还原到不同文件系统时部分失败
    15.  
      从备份副本还原失败并显示映像不一致错误

如果超过 Kubernetes 节点上的 PID 限制,NetBackup Kubernetes Operator 将变得无响应

在 Linux 系统中,有一个以 PID 1 身份运行的 initd 或系统进程来接收僵尸进程。没有此类 initd 进程的容器会不断生成僵尸进程。

在一定的时间段后,这些僵尸进程会累积,然后达到在 Kubernetes 节点上设置的 PID 的最大限制。

在 NetBackup Kubernetes Operator 中,nbcertcmdtool 会生成子进程以执行证书相关操作。操作完成后,这些进程将变为孤儿进程,并且不会被接收。最终达到最大 PID 限制,NetBackup Kubernetes Operator 变得无响应。

Error message: login pod/nbukops-controller-manager-67f5498bbb-gn9zw -c netbackupkops -n nbukops ERRO[0005] exec failed: container_linux.go:380: starting container process caused: read init-p: connection reset by peer a command that is terminated with exit code 1.

推荐的操作

  • 要解决超过 PID 限制的问题,可以使用 Initd 脚本。Initd 脚本充当控制器 pod 的父进程或入口点脚本。

    作为父进程,它在子进程完成后将僵尸进程附加到自身,以终止持久性僵尸进程。它还帮助您正常关闭容器。Initd 脚本在 NBUKOPs 内部版本 10.0.1 中可用。

  • 使用以下步骤删除现有的 nbcertcmdtool 僵尸进程:

  1. 描述 NetBackup Operator pod 并找到正在运行控制器 pod 的 Kubernetes 节点。运行命令:

    kubectl describe -c netbackupkops <NB k8s operator pod name> -n <namespace>

  2. 登录到 Kubernetes 节点,运行以下命令:

    kubectl debug node/nodename

  3. 终止 nbcertcmdtool 僵尸进程,运行以下命令:

    ps -ef | grep "\[nbcertcmdtool\] <defunct>” | awk '{print $3}' | xargs kill -9

注意:

这些步骤将终止该工作节点的所有僵尸进程,但会暂时解决这个问题。要获得永久解决方案,必须部署带有 Initd 脚本的新 KOps 内部版本。