如何减少服务器宕机:从阿里得到的教训

运维 系统运维
服务器宕机当下见怪不怪了。有的因为安全措施没做到位,有的是因为冗余电源没配置,有的是因为人为失误,等等。而服务器一旦出现问题,追究原因对用户而言无济于事,事后的损失赔偿似乎显得苍白无力。如何做到预警,如何做好工作负载的技术支持,如何实现冗余保障......

今天下午,阿里云阿里云部分服务器于出现短暂无法访问情况,致使其科技博客ifanr等网站无法访问。阿里云方面称,该故障的发展原因在于出现电力故障,已在维护恢复中。

  服务器宕机当下见怪不怪了。有的因为安全措施没做到位,有的是因为冗余电源没配置,有的是因为人为失误,等等。而服务器一旦出现问题,追究原因对用户而言无济于事,事后的损失赔偿似乎显得苍白无力。如何做到预警,如何做好工作负载的技术支持,如何实现冗余保障......当下谈论服务器持续7X24的智能响应技术已不计其数,然而频繁出现服务器故障、服务器宕机又是何故?服务商该思考了。在此,笔者鄙陋,列举几种减少服务器宕机的方法,仅供服务商参考:

·选购合适的服务器产品

  在琳琅满目的服务器产品中,企业选择服务器产品不能人云亦云,应该在购买前,对自身员工数量、业务类别、业务规模、机房空间、服务对象性质、管理能力等进行彻底大清查之后,再进行比对,选择适合自己的服务器产品。

  ·建构良性服务器机房

  机房是服务器赖以生存空间,机房整洁度、布线合理性、通风情况如何,冷却温度如何将直接影响身处其中的服务器。“系统在过热、过湿、灰尘过多的环境下也许仍可以运行,但是它们绝对达不到应有的使用寿命,而且较之于在建议的环境状况下运行,更容易受到环境条件的影响,因而频出故障。”来自TERiX计算机服务公司的营销专员Joe Guenther这样说道。

  ·运行服务器实时监控机制

  服务器每天在运行的过程中,企业应该运行服务器实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。企业部署相关员工对服务器运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业应该选择一套服务器监控解决方案,对服务器从内在质上进行实时监控,以便及时发出警报,及时安排相关技术人员进行整修。

  ·制定宕机灾难修复计划

  既然服务器出现宕机的可能性随时存在,在部署服务器时,企业需要邀请相关IT专家进行讨论,分析该企业可能出现宕机情况,并就这些情况分析结果形成意见,思考宕机情况出现时的解决策略,制定一套宕机灾难修复计划,以便服务器在出现宕机时减少慌乱,及时应对。

【编辑推荐】

 

  1. 如何减少服务器迁移中宕机时间及控制风险
  2. Windows Server 2012功能之新服务器管理
  3. 怎样做好一个服务器管理员
  4. 如何将工作负载迁移到新服务器?

 

【责任编辑:黄丹 TEL:(010)68476606】

责任编辑:黄丹 来源: 天极网
相关推荐

2012-09-25 14:15:08

服务器迁移宕机服务器

2012-09-27 09:49:49

服务器迁移宕机风险

2010-10-18 09:10:57

Google日历宕机

2013-09-30 10:18:05

Web服务器宕机诊断

2013-09-26 10:27:57

云服务器宕机数据读取

2012-07-31 10:38:27

服务器宕机

2024-01-30 19:33:57

数据中心服务器

2020-04-13 08:46:22

MongoDBES服务器

2011-05-07 10:27:50

服务器迁移宕机

2021-12-29 10:49:09

网络钓鱼网络安全网络犯罪

2013-01-08 14:07:56

2011-05-26 17:14:58

亚马逊服务器宕机

2009-08-24 17:20:29

IBM刀片服务器宕机

2018-11-22 08:35:06

2015-09-08 09:25:07

编程经验教训

2019-03-04 11:05:20

阿里云宕机阿里巴巴

2015-07-02 11:41:04

宕机云服务

2011-08-01 09:55:17

2019-06-19 08:11:30

Linux服务器数据中心

2011-09-23 11:10:38

服务器
点赞
收藏

51CTO技术栈公众号