由邮件系统中断引发的反思

网络
通过一个小小的邮件中断事件,我们可以发现一些隐患的地方,在ITIL流程规范里,类似情况符合事件管理的范畴,当一种故障事件出现次数过多之后就会被当做一个问题来解决,这样才能避免故障事件重复发生。

窗外的知了不停的在叫,这是一个忙碌的工作日的下午,办公区内销售助理正在与销售进行无声的Mail沟通,研发人员正在测试代码,打印机在吞吐着文件,人事经理正在面试应聘的员工,面试完还要邮件给高层领导安排复试,商务部正在利用邮件处理往来的客户合同,一切都在有条不紊的进行着。

突然间,从销售部传来一声疑问“邮件发不出去啦?”之后各处传来附和的声音,“是不能收发邮件了,没错……”,以前也出现过邮件系统中断个把小时的现象,大家不会太在意,及时反映给网管员,他们通过重启服务器就能迅速的在短时间内恢复邮件系统的正常使用。为了保证研发的保密性,公司内部只能用邮件进行对外沟通,邮件往来是公司内部及公司之间一种重要沟通方式。销售助理小钱心想,我有许多邮件要处理呢,可以边处理手头收件箱里的邮件,边等待邮件系统恢复;商务部小赵庆幸午饭前外地的销售人员已经把合同mail过来了,这会系统中断没关系,正好利用这段时间对合同进行审核,只要在下午3点前邮件系统能恢复,也不影响合同的发送……

一个小时过去了,销售助理小钱现有的邮件已经处理完毕,要回复的邮件也写好了,进入了发件箱。商务部小赵已经审核好即将与客户签约的合同,看了看时间,嗯,还好,才两点,外地的销售人员3点和客户签约,现在把合同回传过去正合适,就把修改好的合同作为附件发送给销售。小赵正准备处理下一份合同,系统弹出消息框“连接到服务器失败!”小赵心里咯噔一紧,可千万别啊,这可是公司近几个月签到的最大的一笔单子呀,经济不景气,虽说公司在继续盈利,但是谁不希望多储备干粮好过冬呢?

小赵想了想,会不会是自己的系统出了问题呢?因为平时邮件系统出现类似中断问题,信息中心一般10分钟、半个小时就能解决问题了。他抱着试着看的心理,打电话给销售助理小钱,她平时发邮件多,指不定她的邮件已经发出去了,我的还没发出去呢。先确定是自己PC的问题还是公司系统问题,再给信息中心打电话吧。小赵给小钱打了电话“小钱,我邮件发不出去了,你那能发么?”小钱检查了下发件箱“咦,奇怪,我这邮件都排着队等着发出去呢”小钱打开一封邮件,点击重新发送“还是不行,要不咱们问问信息中心吧,我这发不出去邮件”。挂了电话,小赵给信息中心打了个电话,信息中心那边小孙接的电话“啊!邮件系统故障啦?不知道呀,我们部门刚才开会去了,也没人告诉我们邮件系统坏了呀,我马上去查看是哪出问题了。”

小孙赶紧去机房查看,一打开屋子,热浪袭来,这是怎么回事?中央空调照理来说不会出问题的呀,小孙马上检查机房空调调节器,空调调节器不知道是哪个冒失鬼,把它给调成最高温度,这大热天,网络服务器机柜发热密度过高,空调制冷效果又不好,导致机柜散热不良,局部过热,邮件服务器正好处于高热点,已经完全停止运作了。小孙赶紧把空调调成最低温度,然后打开门,让室外的冷气进来,但是这样还是需要一段时间才能让机房温度恢复正常,这一等就是半小时。

期间,商务部小赵已经给信息中心打了好几个电话询问邮件系统什么时候可以恢复,都两点半了合同还发不出去,一线的销售人员很着急,客户那边负责签约的副总要赶6点飞机,大家都希望今天能签约,但合同迟迟看不到。
邮件系统已经中断了2个小时,公司上上下下都发不出邮件,这事惊动到了公司领导层,信息中心负责人也来到了机房。等到服务器温度终于冷却之后,小孙开始重启服务器,以前也出现过这样的毛病,都是重启就OK了,小孙吊着的心慢慢放了下去,但是刚在座位上坐下,小赵的电话就来了,“还是发不出去邮件”,整个信息中心都开始着急了,那会是什么原因呢?销售在焦急的等待,不停的催着商务部,商务部小赵只能催促信息中心尽快解决邮件系统故障,领导也很重视此次不大不小的故障……

信心中心开始对故障原因进行排查,一切皆有可能,公司的IIS的邮件系统是建设在服务器之上的业务系统,与业务部门的终端之间通信经过了服务器、主机、路由器,其中任何一个设备出了问题都会影响到邮件系统的正常运作。

但是故障排查时需要时间的,一分一秒过去了,信息中心紧张的排查着问题,到了三点了,问题还是没有找到,合同还是没能回传给客户,客户也对公司的管理产生了质疑,为什么一个小小的邮件系统瘫痪的问题过了那么长时间都解决不了。这个时候,问题被找到了,是有黑客入侵了由于邮件服务器,邮件服务被非法卸载了,问题是解决了,但是由此引发的由于公司IT运维管理做的不到位引发了客户的质疑,引人深思。

一个小小的邮件中断事件,我们发现了该公司存在一些隐患的地方,第一,信息中心无人值班,流程规范没做好,信息部门的全体会议时间,也要顾忌到其他业务部门正在工作,他们会有一些故障请求;第二,没有一个很好的监控系统来管理设备运行环境,Broadview 业务监控中心,可以在第一时间发现机房温度过高,发送告警短信给值班人员;第三,故障排查时间过长,一款好的业务监控系统能对网络环境下的所有设备进行监控,能做到第一时间将故障精准定位到点,也能在故障发生之前就及时报告设备出现了问题;第四,没有规范的流程管理,同样的故障事件出现了许多次之后就应该引起大家足够的重视,在ITIL流程规范里,类似情况符合事件管理的范畴,当一种故障事件出现次数过多之后就会被当做一个问题来解决,这样才能避免故障事件重复发生,省掉运维人员缩短处理重复问题的时间。

Broadview BCC业务监控平台能监控企业的服务器、中间件、数据库、业务应用、安全设备及基础支撑系统(如机房、空调、UPS等)的运行状况,建立性能基线,发现系统异常并及时告警。围绕IT业务和IT资源,采用人性化多层导航呈现模式,由全局到局部、由粗线条到细颗粒度地逐层展现业务应用的运行状况。

责任编辑:桑丘 来源: 51CTO.com
相关推荐

2009-01-18 16:33:09

pureXMLDB2 pureXMLXML

2011-01-18 14:16:38

Linux邮件系统

2011-01-19 12:29:44

2010-01-11 09:46:24

Postfix邮件系统

2014-09-24 09:56:40

2013-09-10 11:02:16

2011-10-17 08:29:33

Ubuntu 11.1思考

2014-12-09 10:28:28

TurboMail

2014-02-26 10:12:32

2009-03-13 16:39:16

Linux开源改变

2014-04-04 13:58:40

2010-07-02 10:31:59

电子邮件新基准盈世信息科技Coremail

2011-02-21 13:40:17

2010-05-25 14:57:17

postfix安装配置

2014-12-19 18:01:51

Coremail 5.邮件系统

2013-09-25 10:03:23

2014-11-19 11:01:37

2013-07-31 10:25:45

2015-04-23 15:09:11

2013-08-08 10:20:04

云计算灾难恢复反思
点赞
收藏

51CTO技术栈公众号