系统管理自测32问之15:有关测试流程

译文
运维 系统运维
二十世纪初叶,美国及英国的煤矿工人们在下井前会先将金丝雀放入,以检测矿中甲烷及一氧化碳等有毒气体的浓度。从一台设备入手(不妨以自己的台式机为起点)、接着推广到数台设备(同事们的计算机该出场了)、最后是大范围部署,整个过程中出现的任何故障都必须加以重视,马上停止升级、取消变更项目且在问题完全解决之前不要继续尝试。

【51CTO精选译文】本文是《Limoncelli的测试:有助于提高系统管理员团队工作效率的32个问题》当中的第15题:在某套方案进行大范围推广前,有没有事先进行过必要的试点?

假设大家打算对总计五百台计算机设备部署变更。也许是要更新内核,也许只为修复一个小bug。

直接对全部设备进行变更?绝对不要这样。大家应该先在少数几台计算机上进行测试,看看会不会产生意料之外的问题。确定一切正常之后再逐步推广,直到整个工作彻底完成。

这些用于早期测试的设备一般被称为“金丝雀”。

金丝雀作为当初煤矿开采业中必不可少的预警尖兵已经成了此类早期测试对象的代名词。二十世纪初叶,美国及英国的煤矿工人们在下井前会先将金丝雀放入,以检测矿中甲烷及一氧化碳等有毒气体的浓度。这种小动物对毒气比人更为敏感,因此能够及时警示工人们井下的当前有害物质状况,使大家能够尽早撤离或是立即部署呼吸防护措施。

以下列举的是一些常见的金丝雀类技术:

个别、一些、大量:

从一台设备入手(不妨以自己的台式机为起点)、接着推广到数台设备(同事们的计算机该出场了)、***是大范围部署(逐步增加部署规模,直到彻底完成)。整个过程中出现的任何故障都必须加以重视,马上停止升级、取消变更项目且在问题完全解决之前不要继续尝试。

计算机集群中的金丝雀:

升级一台设备,接下来是占总体比重1%的设备,***以每秒一台的速度完成全部工作(主要是针对像Google这样拥有大型设备集群的网站)。

上述流程可以通过手动操作完成,但如果大家使用了配置管理系统,那么早期试点功能应该已经固化在系统当中。

 

【51CTO.com译文,转载请注明原文作译者和出处。】

原文:http://everythingsysadmin.com/the-test.html

Limoncelli的测试:有助于提高系统管理员团队工作效率的32个问题:

【编辑推荐】

  1. ***社区Linux服务器发行版点评(生产环境+测试环境)
  2. 没测试过的灾备系统才是企业最危险的敌人

 

 

责任编辑:yangsai 来源: 51CTO.com
相关推荐

2011-09-29 09:41:24

系统管理项目管理系统

2011-09-29 11:09:00

系统管理设计文档标准化

2011-09-30 09:50:55

系统管理服务监控

2011-09-29 10:49:39

系统管理Bug跟踪系统

2011-09-29 11:20:04

系统管理故障

2011-09-30 09:31:22

2011-09-29 10:39:29

2011-10-20 15:32:07

系统管理访问管理

2011-09-29 10:28:07

系统管理维基

2011-09-29 10:54:11

系统管理优先级

2011-09-29 10:35:35

2011-09-29 10:01:08

系统管理策略

2011-09-30 10:12:58

2011-09-29 10:13:13

系统管理指标量化

2011-10-20 14:06:46

系统管理安全体系

2011-10-19 11:01:30

系统管理灾难恢复

2011-10-19 11:17:39

系统管理电源控制

2011-10-19 10:22:17

2011-10-20 14:25:24

系统管理账户管理

2011-10-10 14:27:57

系统管理硬件更新
点赞
收藏

51CTO技术栈公众号