防患于未然:避免IT事故远比补救措施更加重要

译文
系统 新闻
IT部门为了满足业务形势的各种需求,不得不在意外情况实际发生前就对问题进行预判,并详细规划修复故障可能耗费的时间——也就是MTTR(即平均修复时间)。换句话说,亡羊补牢不如防患于未然;避免IT事故远比补救措施更加重要!

【51CTO精选译文】应用程序性能管理起来既变化多样、又复杂难驯。时至今日,IT部门为了满足业务形势的各种需求,不得不在意外情况实际发生前就对问题进行预判,并详细规划修复故障可能耗费的时间——也就是MTTR(即平均修复时间)。换句话来说,仅仅及时做出反应已经无法取悦消费者,现在技术人员必须在用户尚未感受到之前,就将问题扼杀在萌芽状态。

  历史在前进、形势在变化

  云迁移、移动技术、BYOD等多种新兴技术趋势都带来了极度复杂的管理机制,这就迫使IT部门不能再满足于传统的识别及修复工作,而需要走在问题的前面。现在,技术团队必须能够预测可能出现的情况、了解评估故障可能需要的时间,并最终实现关键性业务应用程序始终拥有最佳性能表现。事实上,各种迹象表明我们甚至已经初步拥有了能够在故障实际发生之前就将其解决的先进技术能力。

  如今以MTT开头的缩写词家族可谓人丁兴旺,从平均诊断时间(简称MTTI)、平均修复时间(简称MTTR)再到最新的平均预测时间(简称MTTP)——每个新生词汇都代表着市场向技术团队提出的新要求,这种迅猛的变化趋势确实令人头痛。可以说以上三套基准都意义重大、极具价值,标志着技术运营的阶段性发展方向,而企业用户最关心的自然是这些突破性技术如何才能真正融入日常工作。在竞争压力下,IT部门不得不将负责范畴进一步扩大,尝试在故障发生之前就将其解决——这将进一步降低技术工具对终端用户的技能需求,使整套业务方案更为易用。

 

  可预测性已经成为应用程序性能管理工作中的关键环节,而且技术分析人士已经不再满足于仅仅对处理时间做出预估。目前我们还只是对应用程序使用情况进行分析,但新时代的技术团队能够紧密追踪宏观行为模式。此外,整个分析流程都必须以自动化方式进行,因为面对如此规模的计算量,人力根本无法带来任何帮助。当然,这只是一种展望,目前我们还不能完成如此复杂的自动化处理工作。

  就在不久前,汽车爱好者们还喜欢在引擎盖下面大做文章,希望能榨干自己改装车发动机的最后一点潜能。如今,随着机动车整体运转机制的复杂性与自动化芯片的广泛使用,随便拿套工具就能为爱车加力的日子一去不复返了。与之类似,今天的企业级应用程序堆栈也面临着同样的问题——太过复杂精密、难以按需修改。

  自动化实时预测分析技术如今迎来了发展过程中的全新篇章,其中以云基础及混合环境为代表,这几乎彻底改变了应用性能管理领域的游戏规则。因此,我们不妨以改装爱车的热情来看待应用性能管理所面临的技术风潮——这种突破性理念不仅能够帮助IT部门专注于创新及业务支持、缓和设施故障,更使技术人员得以利用预测来代替修复、摆脱操作干扰,同时用户也能获得值得依赖的应用程序性能预估结论。

 

(来源:《预测分析:让您的数据仓储投资更具经济价值》,摘自由Wayne Eckerson于2007年第一季度撰写的《TDWI最佳实践报告》。转载已获许可,TDWI研究详细内容请访问tdwi.org网站。)

  很长一段时间以来,“向云环境迁移”、“IT消费化趋势”、“混合型IT环境”以及BYOD等话题都被视为技术话题的重心,其中无疑存在大量炒作倾向。不过我们仍然要承认,这里提到的每一个话题都拥有改变游戏规则的力量,同时也为现有业务系统带来诸多创新空间与技术挑战。说到挑战,上述新技术给终端用户带来的技能要求可能是众多问题中最难辨别也最难迅速解决的环节。

  有鉴于此,预测概念的诞生就显得更加重要。很多专家仍然鼓吹利用传统的时间序列数据分析机制来进行问题诊断、安全提示或警报阈值——但他们显然忽视了新形势所带来的新情况:随着网络化进程的普及与发展,分布式特性已经使应用程序的复杂性与关联性大幅提升。

  目前我们已经发现了一种相当有趣的方案,能够对横跨多种互联端点的网络负载行为及分布式应用程序产生深远影响——它不仅能够准确把握设备的处理速度,同时还能根据终端用户的不同服务水平协议将资源进行合理分配。这套方案不同于以往的行为学习(简称BL)机制,它突破性地利用多种考核维度来分析应用程序的使用情况。这种名为使用模式的多用户多事务行为管理方案将每一分钟加以充分利用,意外情况再也不可能在技术人员的监管之外肆意妄为了。

  应用程序行为学习(简称ABL)会捕捉并分析实时数据,及时反馈应用程序基础设施中各层的实际性能状态,并整理出终端用户所感受到的真实使用体验。ABL会针对应用程序性能创建出动态,同时利用统计相关性与模式匹配技术自动发现各基础设施组件的性能阈值。阈值自动发现(简称ATD)方案能够大大降低管理工作对人力的依赖并减轻配置工作负担。

  分析机制还提供早期预警功能,能够深入探询基础设施关键性效能指标(简称KPI),并将异常情况及时反馈给管理人员。在预警功能的强大辅助之下,技术人员能够更快地进行根本原因分析(简称RCA)工作以及自动修复流程。

  ABL在对关键性应用程序性能指标的历史及实时数据集进行汇总时,采用了相当复杂的分析算法。到目前为止,系统、数据库及存储管理者一直都在以手动方式利用这类方案进行监控及故障排查,这种“亡羊补牢”的笨办法正是眼下的主流机制。ABL将问题检测、故障排查重点以及生产环境下的争议性问题等技术挑战以自动化形式完成,这就回避了传统分析方案的复杂性及人工效率低下等问题,同时保障了高性能事务处理应用始终拥有充裕的可用资源。

  在引入ABL及预测分析机制之后,IT部门能够专注于对每款应用程序进行性能优化,而不仅仅是优化底层设备。相较于过去需要在几分钟或者几小时内完成问题检测、事故修复并应对一系列多层环境的基础设施中心型应用性能管理方案,预测分析机制能够将工作强度控制在过去的数分之一。IT如今可以在问题发生之前就做出预测并加以防范——在某些停机情况下,事前准备能够以五到十小时的时间节约量快速解决故障。

  作者简介:供职于Appnomic Systems公司的Manisha Arora是一位经验丰富的产品管理副总裁,她在技术分析方面的骄人造诣与强大的人际交往能力使她不仅对IT问题游刃有余、更能够有效与同事、客户及其他管理人员沟通。多年来,她始终专注于进行业务应用开发及产品交付工作,由此积累的丰富经验帮助企业获得了巨大的利润回报。Manisha在步入技术领域之初即担任数据转换领域的资深软件工程师,其后她又成功依靠实践心得相继晋升为系统分析师及高级顾问。高超的职业技能帮助她迅速很快进入了宏道资讯公司的管理层,在此期间她致力于管理客户关系,并以两百万美元的年收入当选年度百大财富高管。在加入Appnomic之前,她利用自己的才智与技巧在冠群电脑公司赢得了解决方案主管的职位。在职期间,她精心打理企业合作关系、营销团队及技术架构等事务,并在当年就一举将该公司的企业级IT管理方案服务部署份额提高了一倍。

  原文链接:

  http://www.itbusinessedge.com/guest-opinions/why-clean-up-it-accidents-when-they-can-be-prevented.html

  原文标题:Why Clean Up IT Accidents When They Can Be Prevented?

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2015-04-28 07:35:41

2017-06-23 14:36:46

2013-11-22 16:59:33

2013-07-03 09:59:53

2016-02-18 16:43:12

华为双活数据中心

2012-07-31 10:38:27

服务器宕机

2012-04-20 13:49:23

2017-03-23 11:32:09

2009-05-07 10:14:06

暴风影音0day补丁

2022-09-27 14:45:51

安全服务商黑客

2020-12-14 22:55:44

VR交通安全

2011-08-17 09:19:33

windows7备份启动

2023-09-26 10:46:16

供应链管理供应链风险

2012-06-12 10:54:04

编程语言安全意识

2022-05-27 13:57:13

钓鱼数据安全

2018-05-06 23:58:43

2017-06-28 10:24:46

网络安全信息安全安全漏洞

2018-08-23 10:58:00

2020-03-09 15:11:44

微盟安全态势度量网络安全

2023-12-11 11:00:39

云原生CIO数字化
点赞
收藏

51CTO技术栈公众号