信息中心

了解恢复时间目标 (RTO):如何计算 RTO 以及如何利用备份和灾难恢复计划保证顺利运营

对于任何企业高层管理人员来说,确保业务顺利运营是最大的期望。这是因为一切进展顺利时,就不会出现重大问题。但是这种情况少之又少。

企业经常会遇到这样或那样的挑战,导致运行中断,从而付出巨大的停机代价。研究表明,过去几年里,82% 的企业受到了停机影响。每小时的平均停机成本高达 30 万美元,这个高昂的代价可能会让企业破产倒闭。

在如今的数字世界里,不管规模大小,企业都要随时做好准备,应对最坏的情况。如果您没有预先做好计划,勒索软件攻击、数据泄露和自然灾害一旦来临,可能就会对企业造成无法弥补的损失。

若缺少有效的备份和灾难恢复计划,一旦发生事故灾难,您可能要花上数天甚至数周的时间来运行备份。这意味着企业势必遭受不可弥补的收入和生产损失。

所幸的是,现在还有一种途径可确保您的企业避免出现中断,那就是制定恢复时间目标 (RTO)。恢复时间目标,即企业设定在发生中断或遭到攻击后恢复系统的切实可行目标,旨在最大限度减少停机时间。在备份和灾难恢复计划中增加恢复时间目标,可让您安心运营业务,无惧任何意外情况。

恢复时间目标的定义

如上所述,中断和停机可能会对企业造成极大破坏。不仅如此,在出现此类问题后,IT 系统和基础架构需要一段时间才能顺利恢复运行。但偶尔也会失败,需要人工干预才能重新运行。

认识到这一点是缓解此类事件影响的关键。您必须了解系统重新恢复运行需要多长时间,会不会造成业务运营中断。这正是恢复时间目标 (RTO) 的价值所在。

RTO 是一项基本指标,可帮助您计算停机后恢复系统或应用程序所需的时间,同时最大限度减少业务运营中断影响。本质上,这是公司可以承受的最大停机时间。

不同的系统在业务运营中起到不同的作用,对运营的影响方式也不同,因此每个系统都需要独一无二的 RTO。为每个系统定义 RTO 并制定相应的恢复策略,可保证迅速恢复系统。

因此,如果您的 RTO 为一小时,则负责恢复的人员必须在一小时内恢复系统。

您设定的恢复时间目标应符合业务需求。例如,在线支付系统应比内容管理网站的 RTO 时间短,从而确保您制定的恢复策略与面临的风险等级保持一致。

另一方面,如果公司能够使用手动开票,或许可以将 RTO 延长 1-2 天,甚至更长的时间。

理想情况下,系统可在设定的 RTO 内恢复运行。但是,可能无法每次都如愿。

极端事件下尤其如此,例如服务提供商的系统停机或遭到自然灾害。

在这种情况下,企业不妨考虑外包关键的 IT 职能,而不是白白坐等停机造成业务损失。此举不但可帮助您控制 RTO,最大限度减少停机时间,还能避免企业遭受一切潜在损失。

何为恢复点目标

恢复点目标 (RPO) 是类似于 RTO 的衡量指标。RPO 可衡量企业在发生灾难事件或中断后能够承受的最大数据丢失量。

如果说 RTO 侧重于系统恢复时间,RPO 则侧重于数据保护和恢复。RPO 指标可用于衡量企业在不影响运营的前提下可以承受的数据丢失量。

RTO vs RPO

RTO 和 RPO 是备份和灾难恢复规划中所用的两个指标。虽然它们衡量的是不同维度,但您在设置时应一视同仁,且充分考虑企业的需求。

RTO 和 RPO 之间的相似点

它们都用于衡量企业在发生灾难事件或中断后,恢复运行所花的时间。在设置这些指标时,您应充分考虑企业的需求、风险状况、预算和其他因素。

RTO 和 RPO 之间的区别

它们之所以不同,是因为 RTO 侧重于让系统重新恢复运行所花费的时间,而 RPO 则衡量企业在不影响运营的前提下可以承受的数据丢失量。

恢复时间目标为何重要

如今,企业要在你追我赶的竞争中获得优势,关键一点是采用流程优化技术。数字化无疑提高了效率、改善了客户体验,推动了业务运营的转型。

不过,企业如今过度依赖技术,这个问题在系统停机时充分暴露出来。因为停机代价非常高,因此设置适当的 RTO 至关重要。

停机除了造成直接收入损失,还迫使企业不得不投入更多的时间和人力来解决问题,甚至斥资更换 IT 系统。如需更换 IT 系统,总成本可能会超过 100 万美元。因此,企业务必制定有效的停机应对措施和恢复计划。

RTO 有助于避免上述情况。它可帮助企业掌握恢复流程,减少因中断而造成的业务延迟。它也是应对意外停机的应急方案,支持企业快速恢复运行,最大限度减少损失。

计算 RTO

计算 RTO 是一个复杂的过程,涉及到多个因素,例如停机的时间成本、灾难恢复和备份解决方案的投资、系统恢复运行的人力成本、监管要求等等。

要确定 RTO,务必全盘考量这些因素,根据企业风险状况和预算制定时间表。此外,您还应考虑如下事项:

  • 中断的频率,即某种类型中断发生的频率
  • 中断的严重程度,即中断的后果有多严重
  • 中断的成本,即中断会让企业付出多大的代价
  • 中断的持续时间,即中断会持续多久
  • 中断的影响,即中断对您的企业产生的经济和社会影响

记住这些要素后,您就可以开始计算 RTO 了。不过,您还应遵循如下步骤:

  • 计算每个基本流程可接受的最大停机时间
  • 确定每个关键流程所需的资源
  • 计算采购或创建每个关键步骤所需基本工具的时间成本
  • 要确定恢复时间目标,还要将可接受的最大停机时间与采购或创建资源所需的时间相加

不过您能否实现 RTO,还要考虑到诸多因素的影响。因此,您务必落实恰当的备份和灾难恢复计划。

备份和灾难恢复计划如何实现 RTO

备份解决方案和灾难恢复计划是实现 RTO 的基本前提。这些解决方案可助力企业在遭遇停机、数据丢失或其他中断后快速恢复运行。

在您的备份计划中,与提供商签订的服务级别协议 (SLA) 中 RTO 保证也是必不可少的,它还应提供如下能力:

通过配备各种功能的备份和灾难恢复解决方案,实现企业的恢复时间目标。为了确保您充分利用此类解决方案实现近乎零的 RTO 目标,您应关注如下重要功能。

1. 即时恢复能力

要实现近乎零的 RTO 目标,提供即时出结果的恢复选项必不可少。为此,您应将即时恢复功能视为灾难恢复策略的一个要素。这样,您就可以直接从备份存储启动已保存的计算机,然后就像在云存储上一样随时通过虚拟方式运行它。

这是企业在意外停机期间保持运营的基本前提。它还有利于企业快速恢复特定数据,例如医疗保健领域的企业数据。

2. 灵活的调度策略

灵活且可调整的 RPO 策略是 RTO 成功的法宝。您可以根据企业当前的需求调整 RPO。

例如,如果 RTO 要求发生变化,您可以相应地调整 RPO 策略。此外,由于 RPO 通常是针对特定流程或应用程序设置的,因此调整起来更简便、更高效。

i) 持续数据保护

实现 RTO 目标离不开持续的数据保护,它可确保所有的数据都得到备份和保护,无论其更改频率如何。持续数据保护还能快速恢复您丢失或损坏的数据。

虽然持续数据保护可用于关键工作负载,但要占用大量资源,可能因此而影响性能和稳定性,所以它主要用作文件级备份。

ii) 近乎持续的数据保护

近乎持续的数据保护是一项 RPO 策略,可以保证近乎实时的备份和恢复。它将 RTO 目标控制在非常低的水平(几分钟),对性能的影响也不大。这意味着,您几乎能在数据丢失后立即恢复。

如果企业希望将 RTO 目标维持在接近于零,那么近乎持续的数据保护将是不二选择。不过,与持续数据保护类似,近乎持续的数据保护也会因占用资源而影响性能和稳定性。

3.  粒度恢复

粒度恢复功能支持您从备份中恢复单个文件,而不必还原整个数据集。这个功能是低 RTO 场景下的绝佳利器,因为它允许您快速还原单个文件或对象,不必等待整个数据集恢复。

粒度恢复还有助于根据某些流程的具体结果制定专项 RTO 策略。它可确保只需恢复这些流程的相关组件,其他组件不受牵连。

4.  异地副本以备灾难恢复

在异地存有一份数据副本,是您实现 RTO 目标的重要步骤。这是因为在主存储位置出现灾难或中断时,辅助数据存储库可用于快速恢复数据。

5.  带故障转移的实时复制

带故障转移的实时复制功能是您应考虑部署的另一项 RTO 相关功能。这样您不仅可以实现数据的实时可用性,而且恢复丢失的数据时也无需手动干预。

它还支持企业在主站点和辅助站点之间快速切换,一旦一个位置发生故障或中断,可快速转移到另一个位置。带故障转移的实时复制可帮助企业维持 RTO 目标,同时最大限度减少中断和停机时间。

灾难恢复计划的技巧

RTO 战略是企业确保中断期间正常运营的必备要素。下文列举规划 RTO 战略的一些技巧:

1.  确保业务和 IT 紧密相连

制定灾难恢复计划是个棘手的任务,尽管有人会告诉您说有这类最佳实践,但企业往往优先考虑预算问题。在制定此类计划时,企业首先应考虑的是遵守行业标准最佳实践,而不是成本预算。

更重要的是,还要同步考虑您的 RTO 功能及期望。

2.  制定全面的灾难恢复计划

您的 RTO 战略应包含全面的灾难恢复计划,例如概述人员在中断后应采取哪些恢复措施,并列出其他团队的责任和角色。

灾难恢复计划还应包括有关 RPO、RTO、数据备份、复制时间表和灾难恢复计划测试过程的信息。

3.  测试灾难恢复计划

定期执行灾难恢复计划测试是企业及时顺利恢复运营的前提保证。虽然这个流程对许多 IT 部门来说可能很棘手,但无论如何,您的恢复测试都必须下沉到应用程序级别。否则必然会出现意想不到的问题。成功地灾难恢复准备要求企业充分发现一切隐患。

灾难恢复测试不得掉以轻心,企业应采用全面的端到端测试程序,重要性上升到生产级别。灾难恢复的重心应从服务器转移到应用程序,因为多层的客户端服务器和基于 Web 的结构之间存在千丝万缕的依赖关系,十分复杂难解。

如果忽视妥善的准备工作,出错的几率无疑会大大增加。因此这些测试必须下沉到应用程序级别,确保企业能抵御任何潜在灾难!

鉴于新威胁层出不穷,现有威胁在不断演变,您的灾难恢复计划不能一成不变。它必须定期测试和更新,紧跟最新的趋势和威胁格局。

4.  明确划分灾难恢复责任

定义恢复时间目标是 RTO 计划成功的关键因素。务必将职责分配到具体部门或团队,并确保他们了解自己的角色。

企业还要保证每位员工及时了解 RTO 计划的更改或更新,以便在发生灾难时迅速采取相应措施。明确中断或数据丢失时的决策人和某些任务的负责人,这一点尤其重要。

5.  定期更新 RTO 计划

另一个关键步骤是定期更新您的计划,包括更新到最新的 RPO、RTO 和数据备份信息,以及更改不再符合要求的现有流程或程序。此外,如果您最近升级了应用程序或系统,这些更改也应反映在 RTO 计划中。

6.  设定切实可行的目标

在制定 RTO 目标时务必设定切合实际的目标,包括长短期目标,如在特定时间窗口内恢复关键操作,或在特定时间段内使系统恢复全面运行。

为确保 RTO 目标切合实际且可实现,企业就要全盘考量技术现状、可用的资源以及中断或数据丢失期间可能遇到的潜在威胁或风险。设定恢复时间目标后,定期测试以确保目标始终可实现。

7.  实施备份

如要实现 RTO 目标,可靠的最新备份是最基本的成功要素。如要提高安全性,数据还应定期备份,且最好分别存储在多个平台上。在备份数据时,还应确保存储的是数据最新版本,以减少数据丢失量。

备份也有助于企业在出现 RTO 或 RPO 事件后迅速恢复运行。落实妥善的备份措施有助于企业轻松恢复数据和系统,最大限度减少停机时间和中断。

Veritas 能为您提供哪些帮助?

企业若想寻找可靠的恢复时间目标解决方案,Veritas 当是最佳选择。Veritas 解决方案有助于企业在出现 RTO 或 RPO 事件后快速高效恢复运行。它们配备各种自动化工具、分析技术和端到端 RTO 功能,帮助企业主动规划和响应威胁。

选择 Veritas 解决方案的部分优势如下:

  • 自动规划 RTO 和 RPO:我们的解决方案可自动规划 RTO 或 RPO 目标,确保企业轻松应对任何 RTO 威胁或 RPO 事件。这可帮助企业规避潜在威胁,最大限度减轻中断造成的破坏。
  • 端到端的 RTO 功能:Veritas 端到端功能包括数据备份、恢复测试及 RPO 与 RTO 规划,确保企业实施全面的恢复时间目标计划。
  • 分析和报告功能:我们提供分析和报告功能,帮助企业监控 RTO 趋势并识别潜在的 RTO 威胁。这有助于企业及时发现隐患,最大限度减轻中断造成的破坏。
  • 高级分析:Veritas RTO 解决方案还提供高级分析,帮助企业分析 RTO 和 RPO 趋势,更深入地洞察战略。

RTO 计划是出现 RTO 或 RPO 事件时,企业期望尽量缩短停机时间,减轻中断影响的重要前提。同时还要注意设定切实可行且可以实现的目标,落实可靠的备份和端到端 RTO 功能。

Veritas 恢复时间目标解决方案可帮助企业应对 RTO 威胁,最大限度减轻中断造成的破坏。借助 Veritas 解决方案,您可以主动规划 RTO 和 RPO,使用分析技术跟踪趋势并识别潜在威胁。

因此,请立即联系我们,深入了解我们的解决方案如何帮助您制定全面战略。

 

Veritas 客户包括 95% 的财富 100 强企业,而 NetBackup™ 被列为保护企业海量数据的首选。

深入了解为实现数据的全面保护,Veritas 如何跨虚拟、物理、和传统工作负载统一运行企业数据保护服务

 

常见问题解答

RTO 是恢复时间目标的缩写,指公司在中断或数据丢失后恢复系统或数据集的时间。RTO 目标用于为灾难恢复计划设定短期和长期目标。

企业应定期测试 RTO 目标,确保它们始终可以实现。例如,模拟 RTO 场景,并测试出现 RTO 事件时恢复系统或数据集需要多长时间。

Veritas RTO 解决方案提供自动化的 RTO 和 RPO 规划、端到端 RTO 功能、分析和报告以及高级分析。这有助于企业应对 RTO 威胁,并在发生 RTO 事件时最大限度减轻中断造成的破坏。