运维必备制度:故障分级和处罚规范

运维 系统运维
一个好的制度是可操作、可执行的,不是高高挂起的。每个公司情况不同,制度需要定期根据公司自身情况进行适当修改,以下文章算是一个制度的模板,仅供参考,要想使用肯定还需要修改。

  [[163538]]

作者简介

  唐文,《海量运维、运营规划之道》一书作者,关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那运维、运营更多的是在关注互联网服务的质量、效率、成本、故障、瓶颈,用户的忍耐、抱怨等问题。

  在接下来的日子里,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台,监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下所示。

  编者按:一个好的制度是可操作、可执行的,不是高高挂起的。每个公司情况不同,制度需要定期根据公司自身情况进行适当修改,以下文章算是一个制度的模板,仅供参考,要想使用肯定还需要修改。

  正文

  互联网产品提供7*24小时服务,而因人为操作、程序Bug等原因导致服务不可用是影响服务持续运行的重要原因,为了提高各业务产品的运维和运营质量,规范各业务线的服务、故障响应,拟定和发布“故障分级和处罚规范”是非常必要的。

  故障分级标准

  运营故障中,对非不可抗力所造成的故障归类为“故障”,对于故障将追究故障的分级,故障责任人,及故障处理结果。下面将就各类故障级别进行定义说明,由于故障可能在多方面体现影响,所以故障的综合等级评定原则,取各个方面中严重等级***者为该故障综合严重等级,故障分级如下所示。

  故障分级表

  故障奖惩制度

  运营故障处理评定是根据相关责任人对故障的响应、处理、完成结果等因素来对故障的处理情况进行综合评定,部门内会依据这个评定来对故障处罚等级进行调整。该评定只用于由部门内决定的故障处罚分级,公司的处罚条例不受此约束。符合下面条件者,可以对故障处罚等级进行适当降级,具体所降等级由部门领导决定,故障升级制如下所示。

  故障升级制度表

  对于所出现的各级运营故障,如果运营故障的主要原因由人为工作疏忽/失误所导致,参照以下处罚标准对个人和项目组进行相关惩处,任何运营故障,要及时通报相关领导或相关处理人员,对于延报、瞒报故障者,将从严处罚,故障分级及处罚如下所示。

  故障分级表

责任编辑:火凤凰 来源: 运维帮
相关推荐

2011-12-27 16:58:11

2009-06-30 09:35:00

企业IT运维管理制度

2010-03-24 15:17:52

IT服务运维管理摩卡软件

2014-08-15 08:51:25

Wi-Fi运维

2023-09-26 08:00:39

2023-09-28 08:01:41

2010-08-12 17:34:19

网站运维流程规范

2018-06-29 10:36:29

阿里云互联网故障

2014-04-02 10:56:21

2018-08-29 09:23:30

2021-09-10 15:16:19

Kubernetes核心组件运维

2020-09-24 10:50:10

运维架构技术

2018-11-12 10:10:09

Linux远程数据工具

2013-12-18 10:56:48

Linux运维运维技能

2009-04-22 08:59:08

2014-04-23 17:11:57

运维人员访问出错

2010-11-29 14:12:34

数据中心管理

2018-06-23 07:31:05

2015-07-28 10:15:03

云运维管理评估标准可信云
点赞
收藏

51CTO技术栈公众号