又一个不定期备份服务器引发的血案

译文
运维 系统运维
在这个经典故事发生之时,我正为某家规模巨大的非美国国有机构工作。当时机构中的某位IT专家Robert接到一项任务,即将主数据中心内那些未贴标签的已经离线且将不再继续使用的服务器加以清退。Robert就这样带着他的任务穿梭在整个数据中心之中,并通过Excel表格记录下所有详细信息;这时情况出现了……

【51CTO精选译文】大家一定对这样的情景再熟悉不过:用户忙不迭地向服务台打电话求助,一个劲抱怨产品之愚蠢与状况之糟糕;然而调查之后的结论却是,这要么完全是一场误会、要么就是用户自己造成的。既然用户都能造成这种程度的破坏,那么一位来自IT部门的专家如果犯错,又会搞出怎样的麻烦呢?相信这家伙一定会大大地出名——而他所带来的问题将成为引发其它众多问题的根源。

故事背景

在这个经典故事发生之时,我正为某家规模巨大的非美国国有机构工作。当时机构中的某位IT专家——我们姑且称他为“Robert”——接到一项任务,即将主数据中心内那些未贴标签的已经离线且将不再继续使用的服务器加以清退。当时管理层的想法主要是为了清理空间、对中心内的各使用中硬件进行精确清点、搞明白哪些团队在使用哪些硬件以及使用的具体理由。如果对某件设备的作用不太清楚,Robert需要首先明确哪个团队在使用它,然后在着手处理前等待团队给出的详细反馈信息。

同其它任何数据中心一样,我们的这套设施也拥有大量服务器及其它周边设备,其中一些装置的重要性显然高于其它。由于我所在的是一家国有机构,所以外围防火墙监控着大量来自互联网的信息流量:来自国内外企业与组织的内容、远程客户端、所有内部交互信息以及所有咨询数据库等等。

这些防火墙由一台中央管理服务器所控制,服务器向每个防火墙体系发送监控政策及配置信息。防火墙所需进行的任何必要变更都一定要由服务器端设定。而且根据设备供应商的说法,从防火墙端无法恢复服务器的管理机制内容。一旦防火墙重新启动,它将完全根据管理服务器发来的配置文件实施配置。通过这种方式,整套防御体系将很快恢复正常功能。

Robert是怎么做的

Robert就这样带着他的任务穿梭在整个数据中心之中,并通过Excel表格记录下所有详细信息;这时情况出现了——出于某种我们无法理解的原因,他认为这台管理服务器并没有承担什么重要的工作内容。他随手将服务器关闭并直接把网线给拔掉了,并捧着机器回到自己的办公桌旁。最可怕的是,他开始着手格式化服务器硬盘

有一点可以肯定,他并不是什么从事间谍活动的危险人物,也并非带着共产主义国家的密令意欲摧毁资本主义世界的邪恶统治——他只是在管理生产型数据中心时犯了点迷糊。

接下来的事情大家也想得到,网络团队开始接手审查——当他们发现管理服务器直接从数据中心里消失后自然是又惊又怒,场面一片混乱。

当他们最终在Robert的办公桌上找到这台管理服务器时,他们发现Robert根本没注意到服务器上所贴的标签,甚至没注意到那台服务器在被拔掉插头之前处于使用状态。他当时迅速做出了判断——压根没打算做什么调查——这台服务器没啥用。

结果……

网络团队开始尝试全力挽救一切,但接下来的大问题令人束手无策:服务器内容并未进行过备份。实际情况表明,这台服务器的日常管理者没有意识到数据库内容就保存在其中。由于缺乏沟通,管理员认为一旦发生事故,只要根据防火墙端的信息进行重装即可令一切恢复正常。他们对防火墙进行了多次备份,但服务器这边则完全无人理睬。

事已到此也别无他法,从零开始的重建工作一直持续了五个月,这才让防御机制回到维护前的初始状态。

情况跟大家想象的一样,管理者们对Robert既非普通又非文艺的工作能力大为不满,他在IT部门中的地位也随之一落千丈。数据中心最佳实践方案也做出一番大规模整顿,并成为机构全体人员的进修课程。此外,那台管理服务器也从此得到了定期备份的待遇。

原文:http://www.infoworld.com/t/it-jobs/data-center-dont-unplug-first-ask-questions-later-185886?page=0,0

 

责任编辑:yangsai 来源: 51CTO.com
相关推荐

2021-07-27 07:12:11

Getter接口Setter

2022-02-06 20:55:39

jsEsbuild项目

2021-12-01 06:59:27

架构

2020-02-18 20:28:23

AI人工智能

2023-05-14 23:38:43

Glarity用户视频

2014-10-11 09:15:36

2022-11-30 10:59:20

2012-04-12 09:53:02

2018-11-22 15:50:27

MySQL数据库双引号

2021-01-25 08:08:22

APP机器人KOB

2021-02-01 10:42:47

MySQL双引号数据库

2017-05-22 08:35:07

MySQL双引号错位

2009-04-22 15:16:30

2017-08-25 16:38:05

表达式正则血案

2017-08-31 10:32:35

交付技术

2021-12-29 18:18:59

开源MedusaShopify

2021-01-29 09:07:39

数据保护信息安全数据隐私

2011-08-16 17:36:50

SolarisIllumos

2018-09-19 12:08:04

Linux服务器数据

2011-09-14 09:48:09

点赞
收藏

51CTO技术栈公众号