搞定灾难恢复规划:实用性建议汇总

译文
运维 系统运维 新闻
没错,灾难并非不可战胜,但我们要付出怎样的努力与成本才能实现这一点?本文分享了搞定灾难恢复规划的一些实用性建议,希望对您有所帮助。

 

【2013年5月30日 51CTO外电头条】灾难恢复规划外加不间断电源(简称UPS)、主机托管服务、数据镜像、热备份技术等常备方案的结合,已经足以在理论上帮助基础设施抵御任何自然之力的破坏。然而仅靠备份系统、复制规则以及快速故障切换解决方案三者就真能高枕无忧了吗?

任何一位已经实施了灾难恢复解决方案的数据中心经理都清楚,意外情况永远无法彻底被根除。举例来说,为了节约成本,发电机与本地本地协助设施都只能设计为支持某些服务的特定部分。也就是说当停机事故发生时,只有某些关键性功能可以继续运转。为了确保意外情况根据实际事态始终处于控制之下,灾难恢复规划能一直与动态业务保护需求保持一致,我们将与大家分享以下几项关注重点。

* 以精确数据指导应急预案。我们首先需要正确理解正常情况下的设施功耗水平,并根据相应数据对IT与设施进行定位,从而确保珍贵的备用电力能在灾难发生时高效分配给最重要的环节。

技术供应商当然了解这一需求,他们在数据中心解决方案中加入了基准电源管理机制,能够帮助管理者查询设备温度及功耗水平,并利用各种监视及控制工具把握现场情况。IT管理者得以借助这些创新技术以或简单或复杂的方式进一步提高灾难恢复效果。一般来说,管理者至少要能够检查空调机组的回流空气温度,并收集数据中心内各机架的单独功耗数据。

另外,全局能源及冷却管理方案将基础设施划分为不同单元,借以严格把握各服务器进风温度。出色的能源管理解决方案还可以汇总服务器的实时进风温度以及数据中心整体的功耗水平。

全局能源管理方案能为我们提供实时及远期观察结论。归纳得出的温度与功耗数据可以通过整理形成发热量及能源分配图,帮助管理者以直观方式把握数据中心内的主要发热点以及用电大户。随着时间的推移,这些数据将在趋势分析工具的汇总下成为灾难规划的重要依据。全局方案能根据实际用电数据提供非常精确的数据中心管理意见,并以此为基础生成可供能源管理方案使用的理论模型。

*识别并保护高优先级资源。拥有实时查看能源使用与温度模式的能力,同时又具备长时间运行所积累下来的丰富数据,数据中心管理者得以借此识别哪些才是停电期间最需要优先甚至是额外保护的关键性资源。关键资源中通常包括关键性业务员工团队的相关系统或者可能对高优先级交易造成影响的重要应用程序。

在日常运维的基础上,监控机制保证数据中心管理者能以更积极的姿态应对突发情况。只有尽早发现高热区域,才能在温度达到临界水平之前及时处理,从而最大程度减少高温对设备及用户服务的负面影响或者让预先准备好的预防措施有用武之地。除此之外,高度关注功耗与温度情况还能帮助大家识别哪些硬件能耗过高,并通过系统更替将能耗控制在合理范围之内。

这类解决方案不仅改善了信息直观度,还能够引进更理想的电源控制机制。对电力的合理控制能够避免停机事故--例如将温度控制在较低水平--而且即将停机事故无法避免,方案也可以保证关键性业务系统始终拥有电力供给。作为灾难恢复解决方案的关键性组成部分,电源控制机制既避免本地协助设施将非必要性系统复制进来,也有助于实现可用系统的最大化发挥。

这里我们介绍一种粗略的功率控制方法:将功耗主要提供给高优先级服务器及相关空气冷却设备,这种处理方式在任何危机下都能发挥不错的能源节约效果。由于性能往往与功耗水平直接相关,因此能源管理方案的智能化水平越高、IT人士就越能更好地以动态方式在功耗与性能之间找到平衡点。

最理想的能源管理方案会通过对实际功耗的连续监测获取精确数据,并利用动态调整机制为CPU设定工作频率,这才是最理想的平衡控制方式。解决方案与操作系统或者基于阈值警告的管理程序相交互,并最终将电力短缺状况给应用程序及终端用户带来的影响降到最低。

* 更好的灾难抵御能力。能源限制与节流机制能够最大程度保证高优先级业务应用的可用性,反过来IT部门需要在电力供应紧张时暂时禁用或者调低非关键性服务器的处理性能。作为对自然灾难的回应,这些控制手段能够有效减少终端用户与关键性应用程序在灾难中受到的影响。

*  容量管理。能源管理解决方案在平衡功耗与性能之余,还能以其它方式增强基础设施的灾难抵御能力。通过帮助数据中心架构师深入了解功耗需求,这类解决方案能够精确计算并提供理想的机架配置密度,最终在停电过程中尽量延长基础设施的运行时间。这部分调整不仅能提高停电期间运转组件的执行效率,更能将UPS的续航寿命延长约25%--这一数字来自数据中心能源管理方案的概念验证测试。

最大的回报

停机事件带来的高额损失正是很多企业投资部署全局性能源管理解决方案的最大动力。然而除了应急情况,这类方案也能从其它方面给业务系统带来改善。其中最明显的一点在于,出色的能源管理方案会始终帮助基础设施实现能源节约,而不仅仅是在电力中断的情况下。

事实上,我们已经在观察中发现智能化能源管理方案足以将基础设施的能源消耗降低20%到40%。这还只是很保守的估计,即认为数据中心中的服务器有10%到15%处于闲置状态。由于典型服务器设备的运转功率普遍为400瓦,因此每台服务器每年光是能源成本就达到800美元以上。在运营过程中能够限制机制降低这部分能源损耗能够显著减少基础设施使用成本。

我们有理由提高数据中心的能源控制力度,这不仅仅是为了将能源使用成本约束在合理范围之内。服务器数量的不断提升已经令数据中心的用电开支成为运营成本中一笔不容忽视的庞大投入。大家显然有必要在自然灾难降临或者电费支出居高不下时考虑业务系统的健康运转,因此在现代化数据中心内推广全局能源管理方案拥有非常积极的现实意义。

原文链接:

http://www.networkworld.com/news/tech/2013/052013-disaster-recovery-269953.html

 

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2017-08-12 13:36:15

虚拟化灾难恢复服务器

2012-02-06 09:58:48

2010-01-08 12:11:04

ibmdwWeb

2019-10-21 16:17:39

存储灾难恢复系统

2016-12-16 09:37:33

Linux实用性 行动

2021-01-17 16:25:02

Python编程语言开发

2020-12-16 14:21:39

灾难恢复DR存储

2011-05-31 18:41:45

复印机技巧

2011-11-02 17:30:36

HTML 5

2011-05-03 13:20:39

照片打印机

2024-02-04 00:00:00

Go货币接口

2023-12-20 07:52:49

Python高级用法生成器

2017-12-26 09:36:36

数据中心灾难恢复

2012-11-20 09:49:19

灾难恢复服务DRaaS云灾难恢复计划

2009-04-10 00:42:36

数据库历史性备份

2012-09-17 11:25:32

IBMdw

2017-12-08 20:32:39

2021-07-19 10:13:41

Figma插件工具

2023-11-28 15:19:00

Linux运维btop命令

2022-08-09 07:08:28

函数式编程Go
点赞
收藏

51CTO技术栈公众号