“五个九”的可用性真的有意义吗?

译文
运维 系统运维 新闻
如今还有人真的把所谓“五个九”类承诺当回事吗?从理论层面上来说,这意味着99.999%的可用运行时间比例,也就是说业务经理们每天会遭遇到的故障时段略高于八分之一秒。现在,我们所需要的是手头的计算资源能够在任何必要情况下正常运作,这也就是他口中提到的“有效的九”。

【51CTO 8月23日外电头条】51CTO编辑注:现在互联网服务商提到可用性,一般以“n个九”作为指标,而“5个九”是相对高可用的标准,也是大部分云计算服务商承诺的可用性。但是,随着业务的构成更加复杂,“5个九”这样简单的指标还能满足用户的需求吗?且看本文分解。

如今还有人真的把所谓“五个九”类承诺当回事吗?从理论层面上来说,这意味着99.999%的可用运行时间比例,也就是说业务经理们每天会遭遇到的故障时段也就八分之一秒多一点。

这听起来算是相当令人满意的结果了,不是吗?一周的故障时段为六秒左右,一年也才大概五分钟。

纸上谈兵没有价值

回溯八十年代中叶,当时企业希望业务人员能够熟悉IT部门的交流方式,并认为这种角色转换具有积极的现实意义。不过放在现在看来,这种要求只能被称为痴人说梦。业务负责人想要的只是在他们需要时所有设备能够正常运转并提供准确的服务,进而帮他们赚到钱。

在当下,系统管理工作又是如何进行的?IT负责人怎样确定系统正在针对商务客户的需要提供确切的帮助,而不仅仅是提供一份空泛的统计单?

“五个九现在已经不合时宜了。”Bill Roth说道,他是商业情报公司LogLogic的执行副总裁。

“人们需要计算机时刻保持正常运转,但用户描述需求的方式已经发生了改变。”

现在我们所需要的是,手头的计算资源能够在任何必要情况下正常运作,这也就是他口中提到的“有效的九”。当然,实际上我们有许多时段并不太需要计算资源,例如工作人员夜间休息的时候。

多层式结构枢纽

这意味着IT部门必须将IT系统视为一个整体,而不是过分侧重于其中单个的组件。就IT基础设施中的多个组件进行事件分析,能够帮助管理员更好地了解当前的实际运行情况以及给客户带来的影响。LogLogic公司所打造的语义解析及识别系统不仅能够用来阐释某段特定的错误代码,还会为我们展示其所造成的影响。

Hamish MacArthur说:对于大多数管理员来说,问题在于他们的系统已经是数年前的陈旧产物,而这正是多层式结构的噩梦。他是MacArthur Stroud分析公司的联合创始人之一。

“我们以某种运行状态作为最终方案,而人们却总会在不同时段向其中引入大量不同类型的工具,”他说。“潜在的复杂性正在虚拟化的作用下进一步加剧。”

问题的另一大难点在于,此类工具往往并不是用户自己购买的。“基础设施管理工具往往基于一些假设向管理者做出很多许诺,令人以为上了工具就能在无需全程监控的前提下了解到当前的运行状态,”MacArthur说道。

IT部门并不总是在预算成本中将额外的系统管理工具纳入考虑范畴。但企业无疑需要在系统性能方面获得充分肯定,而IT部门会旋即发现自己必须采用相关的性能及系统管理工具才能达成上述目标。

将此类工具全部整合起来并加以协调可谓超乎想象地困难。不同的系统管理环境可能会在特定的应用程序集合中发挥出不一样的执行表现,但管理员需要跨业务单位对整从此管理系统进行维护。此外,他们还需要根据运营成本的限制对引入的授权许可数量制订规划。

以典型的统一型数据中心来说,例如思科的UCS,能够彻底解决全部问题的方案非常有限。

解决方案的基本思路是在对一套单一的整合型系统进行管理时,从某个单独的切入点着手。一切因素都经过预先设置、反馈良好,可以通过管理控制台对整套系统进行鸟瞰式的监控。

但此类统一型服务器的局限也是明显的。企业可能会通过使用新的数据机房或引入一套新的应用程序来实现部署角度的改进,但却很少用它们彻底替代原有的计算基础设施。

降低栈集成程度

因此,各大机构往往都在其自有计算基础设施中残留着杂乱无章的运行环境。甚至来自VMware, EMC的集成栈以及思科的 VBlocks、 NetApp的 FlexPod、以及甲骨文的Exadata都存在着此类问题。

据分析人士透露,这也正是集成栈的销售情况长期游走于低位的原因。

提升自己对系统的观察视角,意味着我们在系统管理方面进一步深化以服务为中心的思路;提供给用户的不仅仅是特定的硬件套装,更应该是经过严格考量的应用程序。这些服务项目应该能够广泛覆盖常见的组件。

IT部门可以将其数据中心分为同步型、异步型以及独立应用与服务型三种。同步型部分的关键性指标是正常运行时间;异步型应用程序能够一次性脱机数小时仍然正常运作;而独立型每个月可能只使用两天左右。

从这个角度划分系统类型并兼顾客户的实际需要,将使系统管理工作的必要成本远远低于单纯追求多少个九的运行统计数据。

原文:http://www.theregister.co.uk/2011/08/19/system_management/

【编辑推荐】

  1. 51CTO电子杂志《Linux运维趋势》第2期:可用性
  2. 服务器集群高可用性注意事项:DNS与故障转移
  3. 网站运维之道 关于可用性
责任编辑:yangsai 来源: 51CTO.com
相关推荐

2023-01-30 07:55:44

代码过度设计

2015-04-23 16:21:23

2016-04-13 10:52:12

2022-12-12 17:42:38

人工智能预测性维护智能建筑

2016-02-17 09:06:42

代码注释代码规范

2019-01-24 10:23:58

Web前端密码加密

2021-02-19 09:45:50

Python面向对象代码

2021-03-04 13:25:22

Python面向对象代码

2021-04-06 11:21:50

Python面向对象代码

2011-09-09 10:31:40

Xen虚拟化linux内核

2022-02-28 22:52:56

混合云工具技术

2021-09-29 15:17:44

iOS 15苹果听力健康

2020-06-04 08:05:06

物联网客户见解IOT

2014-05-04 10:06:56

数据收集

2016-02-17 10:01:36

编程代码注释

2021-10-28 15:02:16

OpenHarmony微纳卫星

2022-09-30 09:24:10

思维办公IT

2012-10-08 13:40:56

2021-05-21 10:33:37

数据中心数据存储

2023-08-30 08:04:03

架构前端应用程序
点赞
收藏

51CTO技术栈公众号