专访刘元:雅虎的监控平台与故障告警那些事儿

原创
系统
运维人员的工作压力很大,他们虽然不一定要每天守在机房,却必须对机房的一举一动了如指掌。雅虎作为全球领先的互联网企业,是如何做好机房监控的?故障告警机制又是什么样的?51CTO记者带着这些困惑,专程采访了雅虎北京全球研发中心高级系统运维工程师刘元,才了解到这背后的故事。

 【51CTO专稿】运维人员的工作压力很大,他们虽然不一定要每天守在机房,却必须对机房的一举一动了如指掌。雅虎作为全球领先的互联网企业,是如何做好机房监控的?故障告警机制又是什么样的?51CTO记者带着这些困惑,专程采访了雅虎北京全球研发中心高级系统运维工程师刘元,才了解到这背后的故事。

[[84311]]

(雅虎北京全球研发中心 高级系统运维工程师刘元)

以下是采访实录:

51CTO:刘老师,您好!首先请您简单地做一下自我介绍。

刘元:我叫刘元,来自雅虎北京研发中心,在这里工作了四年,四年里一直从事系统业务相关的工作。最早加入雅虎的时候,我主要负责搜索广告产品的运维,这是雅虎全球的一个统一的搜索广告平台,这个平台的运作效率直接影响了雅虎的收入。

后来我加入了个性化推荐系统团队,这也是公司主推的一个项目,我们把雅虎的内容,按照个性化推荐给用户。同时也会对我们的合作伙伴,以及互联网用户关心的信息,进行个性化推荐。我目前主要负责系统维护、部署等,以及系统设计方面的个性化系统运维工作。

51CTO:您从事的这个个性化运维团队,大致规模是什么样的?

刘元:在雅虎,整个运维团队(包括系统运维、网络运维等),大概不足千人,这个团队负责雅虎全球的所有运维工作

51CTO:您目前所在的这个部门,主要的职责是什么?

刘元:我现在所处的部门负责系统服务运维,更关注的是服务的可用性,也就是说我们会持续不断地为用户提供高可用性的服务。除此之外,我们部门需要负责容量规划,比如在哪些地方有多少台服务器,在不同的机房有多少台服务器等,另外,灾难备份规划也是我们的工作内容之一,比如说一个数据中心发生故障了,要怎么样才能把用户引导到其他数据中心去。

51CTO:雅虎作为全球领先的互联网企业,日均浏览量应该也是百万量级的。能否介绍下雅虎当前的主要架构,大致的规模是什么样儿?用到了哪些技术?

刘元:雅虎有一个完整的技术生态圈,在各个数据中心,我们提供大量的基础服务。对于应用来讲,我们更注重它的应用逻辑,同时,我们也有大量的应用开发框架,比如说雅虎也有自己版本的Java框架,在后端有自己的本机存储的技术,然后我们还有大量的通用平台技术,前端应用只需要调用后端的平台,就可以去获得个性化数据,比如身份验证,统一恶意流量管理,以及广告。所以我们的开发,更多地放在应用逻辑上。后端我们有非常大的平台,来支撑其他基础的信息。

51CTO:这个平台完全是雅虎自主研发的?

刘元:其中有一些是通用技术,雅虎在通用技术上有自己的改进和创新,雅虎有自己版本的技术,因为我们的规模非常大,所以会在一些通用技术的基础上做很多优化,来实现更好的性能,使数据更容易地被分发到全球所有的机房,帮助我们实现更大规模的数据服务。

51CTO:您刚刚提到这些技术,在搭建和实施的过程中,遇到的主要难题是什么?是怎么解决的?

刘元:由于雅虎服务的用户遍布全球,所以在全球范围的核心区域,都会部署这样的应用。怎样把产品部署到全球所有的数据中心,这就是我们现阶段最主要的难题。至于如何解决?这个其实非常复杂,因为我们做的所有事情,都是为了解决这个问题,除了一流的硬件环境,良好的技术体系以外,我们还拥有大量的系统运维工程师,来帮助我们克服每一个困难。

51CTO:能否介绍一下具体的流程?比如说哪个部门,或者哪些人专门负责哪一块?

刘元:运维团队里有不同的分工,也会有专门的团队来帮助我们所有的产品做检验,确认灾难转移的方案是否合适。有些人,会更关注系统性能,或者应用性能。当我们需要采购新机器,他会帮我们检验,比如说考量是否真的需要这样的机器,是否真的需要这个性能,来达到你的产品需求。

51CTO:雅虎的监控平台和监控手段是什么?故障告警机制是什么样的?

刘元:雅虎有一个完整统一的监控平台,我们通过这个监控平台,基本上可以从不同的层面看到服务运行情况。在这个监控平台里,我们首先会对主机层面,也就是每台主机的状况进行检查,比如它的硬件状况,负载状况。同时会对上面的一些服务,做一个服务层面的检查,比如说这个服务是不是可用,基本的数据是不是正常。同时我们还会把上面的应用数据搜集起来,比如现在的访问量是多少,用户平均的访问延时是多少,每个用户期望的结果等。我们把这些数据汇成图表,同时和历史的数据相比较,这样就可以更早、更快地发现异常的数据行为,帮助我们更早地发现潜在的问题。

这个监控平台会和其他若干系统相连,让我们方便地知道在不同时间内,是哪个国家地区、哪个工程师在维护这个产品。在这些信息的帮助下,告警信息会自动地通过邮件、短信、配件的形式发给对应的工程师。如果一段时间内这个报警还没有得到及时的响应和处理,那么我们会给更高水平的运维工程师反馈。我们有一个全球72小时的监控运维团队,如果出现服务层面故障的告警信息,没有人及时处理的话,监控团队会打电话通知我们。所有这些都是集中在一个统一的监控平台里面的。

51CTO:刚刚是告警,那么预警和预报警的机制又是什么样的?

刘元:预报主要是靠历史数据的积累,比如说知道每天的日高峰是什么时间,把最新的数据汇成图,和历史的数据进行比较,通过这些信息来做预警或者预报。至于如何清晰地定位故障,我们用的是统一的监控系统,这样能够很方便地让所有人很精确地知道究竟是哪个系统出现故障,它会影响上下游的哪些系统等。

51CTO:一般故障响应的时间大概是多久?

刘元:我们根据不同的服务等级,来提供不同的响应时间。比如对于那些优先级别很高的问题,我们要求响应的时间非常短。如果问题没有直接影响用户,或者没有影响到数据的准确性,这样的问题响应时间可能会相对长些。我们会按照不同的服务等级决定响应时间。

51CTO:雅虎一年当中出现这种故障的机率大概是什么情况?有统计吗?

刘元:有统计,但因为我们所有的故障都是分级的,所以我很难给你一个确切的数字。我们以故障的不同级别、不同严重程度来决定故障时间和响应情况。平时出现的故障都是比较小的,比较容易解决的。如果是比较大的故障,因为对服务的等级要求非常高,所以我们会很快调动很多团队进行处理,比如一个核心的系统故障发生,可能很快就会影响到前端的系统,影响范围将非常广,那么很快就会有大量的运维工程师进行处理。

51CTO:从您这么多年运维的经历来看,您在哪个时间段的成长比较快?

刘元:这个因人而异,我自己觉得是新加入一个团队那段时间。因为我非常喜欢学习新东西。新加入一个团队之后,我会很快地学习这个团队里面新的东西,和原来的信息进行比较,并与之前的经验结合起来,思考原来的经验在新的环境中怎样能够继续使用,或者是如何帮助我优化新的流程。

51CTO:您觉得一名合格的运维工程师应该具备哪些方面的素质?雅虎招聘系统运维工程师的主要要求有哪些?

刘元:其实运维工程师也分很多种。对于我们系统运维工程师,我们更多的是关注于服务的高可用性运行。所在雅虎在招聘方面主要有以下几个要求:

首先,我们更关注工程师的基础知识好不好,比如说网络基础。因为雅虎维护的都是非常大规模的应用,如果你的基础不扎实,工作中就可能会出现力不从心的情况。这个时候再去补基础就晚了,所以我们有这样的要求。

其次,是否好学也是一个要求,工程师要有学习动力来不断提升自己的工作效率。比如说他现在每天面临很繁琐的工作,就需要自己去写工具,来做优化,他需要考虑如何更高效地处理现有状况。

同时我们还很看重他解决问题的思路以及解决问题的能力。我们更希望和有系统运维想法的工程师一起工作,这样我们才可以把事情做得更好。

另外有一点不得不提,在雅虎北京全球研发中心,我们会和全球所有的团队一起工作,所以英语也是很重要的一个方面。

专访到此就告一段落。非常感谢刘元老师的分享。作为运维工程师的你,有没有加入雅虎这个团队的意愿,欢迎留言讨论。

专题推荐:2013,应届毕业生需要知道的事儿

责任编辑:黄丹 来源: 51CTO.com
相关推荐

2013-08-04 21:44:48

运维故障故障排查云计算

2011-11-08 09:58:01

OpenStack

2010-04-25 15:29:58

Twitter可伸缩性

2013-01-11 16:05:41

求职招聘

2011-12-27 14:54:24

回顾app移动应用

2013-07-24 15:21:32

CDN故障响应

2019-05-15 10:18:29

HDFSHadoop监控

2022-07-28 08:45:40

Web应用监控与告警

2013-07-22 13:51:24

监控CDN服务器刘宇

2023-04-11 07:34:40

分布式系统算法

2021-03-18 09:01:53

软件开发软件选型

2015-08-04 10:38:54

APP架构WOT阿里无线

2015-11-04 09:36:44

超融合IT基础架构

2017-04-11 09:29:45

WOT

2011-02-25 14:35:00

2021-06-02 08:33:31

TPCTPC-H系统

2022-02-08 17:39:04

MySQL服务器存储

2018-09-26 06:50:19

2021-06-09 13:28:40

密码安全身份认证数据安全

2013-12-26 14:23:03

定位系统GPS监测
点赞
收藏

51CTO技术栈公众号