云环境的服务保障:主动性监控及容量管理

云计算
2011年11月30日,由BMC软件举办的云计算管理技术大会在上海举行,会上各路专家将就云计算愿景、云计算应用、云计算管理、业务服务管理(BSM)等话题展开精彩探讨。

2011年11月30日,由BMC软件举办的云计算管理技术大会在上海举行,会上各路专家将就云计算愿景、云计算应用、云计算管理、业务服务管理(BSM)等话题展开精彩探讨。以下是BMC中国***软件顾问张健先生的精彩演讲:

今天跟大家分享BMC在做云环境服务保障的一些心得。首先我谈一下自己的观点,我们通常在谈云的时候,都是从IT层面去考虑,云怎么去部署,怎么去申请。但是对大部分客户来说,关心的是云的服务,大家都用过云的服务,比如google的Gmail等,这是作为终端用户使用云的想法。从这点来说,对于云,我理解叫云计算显得太IT化一些,我个人看法我觉得叫云服务更恰当。在这个服务里面,是不是我们简单在IT层面把相应的组件部署完成以后就OK了,实际上这个对传统的IT管理来说是可行的,但是对于终端用户来说,对于云的服务提供商来说应该是远远不够的。 

[[53201]] 
BMC中国***软件顾问 张健

就像PPT中的例子,我们可以看到,比如Gmail和Amazon,有一个用户在博客上发表了一个话我觉得很有意思,他说云服务不能运行了,给他的感觉就是觉得天塌了。用户的***反应就很沮丧,因此从IT的管理层面来说,我们在完成云的发布以后,最重要的是什么呢?我们IT应该关注什么呢?从整个流程来看,前面大家在看云整个生命周期管理的时候看到,在云的生命周期管理里面,在***步我们会做云服务的请求,什么时候可以进行服务的发布,我需要什么样的配置,这是其中一部分,而另外一块,我们在云服务发布以后,决定什么时候回收对云进行回收,这只是其中的一部分。但是实际在很多时候,云在运行的时候是有很长一段时间是要提供给用户作为服务的,因此我们在整个云的管理里面,要着重看一下怎么保障云服务。

在云保障服务里面,我们会有几块需要去关注,比如云的服务保障,它和传统的IT基础架构的保障有什么不一样?***,在云的架构里面,实际传统的IT基础架构都还存在,不管你前面提供什么样的云服务,在后台实际我们看到的还是一些服务器它上面运行的一些相应组件做了一些虚拟化的划分,因此我们在整个云服务保障管理的最基本层面还是考虑,我们怎么对IT的基础架构进行管理,并且在保证这些服务的时候,我们还要去考虑作为云有自己的一些特点。***,云整个的环境是相当复杂的。实际我们在做云的服务提供的时候,不光光是单一的一个品牌,可能在云环境里面,我只用某一种指定的服务器,可能在云上面会运行各种各样的数据库,我这个数据库可能会跨到不同的平台。我们在Google做搜索的时候,可能我这个搜索就会去横跨几百台到上千台的服务器,这个平台是相当复杂的。第二,我们在做云服务的时候,实际要管理的不光光是我内部的用户,有可能我使用云的时候,或者云的使用用户是在外网的,或者我申请了云的资源是在外网的。第三,我在做云的时候,我提供服务的时候,很多用户有各种各样的终端,有手机终端,有PC服务器还有笔记本都可以连接进来。

因此,从前面讲的这些特点,在整个云服务保障里面,我们需要着重考虑几点。***,我怎么去保障我的服务水平,保障服务水平实际会分成两个层面,一个是从用户自己的感受角度去看,我怎么保障这些云的服务,就是用户的使用体验好不好。之后从IT运维角度来看,我提供云服务以后,首先要告诉用户我提供的云服务是否是好用的,我给你的保障是怎样的,我给你签订了几种级别的云服务,我怎么去保障。第二个层面,我们提供云服务,后台还是离不开各种IT组件的支持。在后台支撑的各个组件里,这些组件能不能对云服务提供支撑,提供支撑这些组件的运行效率是怎样的,并且考虑运行效率的时候,相应的性能是不是能够符合我业务的发展,在什么时候会遇到瓶颈,在后台的性能管理里面都要及时了解。第三层次,在整个云的架构里面是一个复杂架构,高扩展的环境,在做云服务的时候就要经常审计一下,比如在提供的云服务中,当我分配一个虚拟环境的时候,我需要考虑提供虚拟化池的时候分配是否分配在正确的地方,或者现在有没有存在一些竞争,如果存在竞争的话,我这些服务器应该怎么摆放?是不是有调整的可能。所以在整个云服务保障里面,我们都需要考虑这几点,并且这些在一开始规划的时候就应该规划进去。

综合上面几点来看,***我们在做云服务保障的时候,我们目标是什么?首先,我们要保障我们整个的云可以提供优质的服务。在这里面我们会考虑针对这些需求我们需要什么能力,需要有一种手段主动去发现我现在的服务水平是否能够满足我的需求,从用户那一端,或者从我这一端都可以看到针对我提供的服务,用户的感受是什么样的。还需要有一些手段能够保障在云的环境里面提供的能力是能够满足我业务需求的发展,并且在我提供的服务出现问题之前,就能够通知用户,应该具有预测的能力,而不是等服务真正出现问题之后才告诉用户现在服务做不了。在持续优化层面,通过一些手段,首先帮助我们了解现在的状态。第二,根据现在的容量和状况去分析我现在的环境是不是能够支撑我未来的发展。第三我还需要根据我的业务优先级判断,如果我业务增长,我需要有什么手段去优化我现在云的环境。

我们可以看到在整个流程里面,从服务交付和服务回收之前,云服务保障占了很大一块。BMC也相应提供了一些手段在整个云生命周期里面来进行保障。在整个生命周期管理里面,BMC在CLM1.0和2.0里面已经内置了服务保障,实际上提供几种能力,***种我们做云环境发布的时候,比如用户申请一个服务器,这个服务器可能要装一些数据库,中间件,这些环境我发布以后,在用户收到这些虚拟环境以后,最想了解的是***我每个月或者我每天运行的状态是什么样的,有没有资源的紧缺等,对于用户来说是这样的。对于IT管理人员我们也想知道,我们发布的数据运行情况怎么样,这样你在部署云环境的时候就要进行选择,是不是要添加相应的模块,这些模块会随着你云环境的划分自动部署到里面去。第二,在部署的时候,支持的平台是多样性的,它其实不是局限于特定的一家厂商,在发布的时候我们可以支持已有各种虚拟化的存储平台,甚至是第三方的云的平台。

接下来我们可以看一下,在每一个模块里面,比如在服务水平管理里面,我们会提供什么样的能力,在服务水平管理里面,我们可以看到,首先我们会有一个面向IT运维人员的平台,我们提供的服务在什么区域不可用,总体的状况是什么样的,哪个用户在使用你服务时候出现了什么问题,比如是不响应时间慢,还是中断的情况比较多,从这上面我可以时时了解你当前提供云服务的状况。第二层次在服务管理里面,我做一笔交易,或者我去访问云服务的时候,比如我收邮件,我多久邮件可以收到,或者我传数据的时候,我数据是不是真的传上去了,这一块我们还会考虑用户的真实体现。我们传统的IT管理,大部分还是关注我的组织架构,比如内部环境里面的服务器,中间件的这些故障。现在我们在日常运维当中,包括很多IT的运行当中,我提供的各个组件都是很好,但是用户的体验不好,因此我们就需要从各个层面判断,到底我提供的服务不好在哪里?现在出现问题是哪些方面出现问题了,根据用户使用的环境,通过用户感知的手段和我后台的手段,帮助IT运维人员提供相应的判断。同样的,在整个运维里面,从用户感知的一些重要性,在传统层面,我们还是从用户的角度,从IT运维的角度去感受我提供这些服务是不是好的。但是在云的层面,BMC提供的方案,这不光是云的服务保障了,针对于整个运维环境,BMC提供的方案。首先我可以感知用户使用的状况有没有出现问题,第二,如果出现问题以后,你在后台深层次的模块有哪些问题,比如中间件里面出现问题了,或者数据库里面出现问题了,我能够一层层挖掘出现的问题,从而快速的修复你的问题。在主动监控层面,BMC提供什么样的能力呢?在整个云环境里面我们架构是相当复杂的,在BMC整个云服务保障方案里面,我们可以收集来自各方面的数据,比如我们看BMC本身自己有很多的监控模块可以监控云环境里面的组件,第二,我们可以去收集第三方的数据,这个数据收集不仅仅是告警的事件,同时也可以把原来的性能数据综合进来进行分析,帮助你做深层次的挖掘。同时,在扩展上面BMC还可以结合之前收集到的云服务用户体验的数据,以及第三方用户提供云服务的数据。在主动监控里面,用户在出现问题的时候,通常会从业务视角去关心,我们IT运维人员这时候就看,哪个问题出现中断了,这个问题出现中断以后对其他服务也没有影响,影响范围有多大,这个范围如果深层次挖掘下去,应该是哪些IT组件带来的问题,这样能够帮助你快速定位问题。在云整个的服务保障的监控里面,我们还会看到,云说到底层都是一些虚拟化的资源,在服务保障和监控里面我就需要有能力,快速跟踪你资源池的变化,特别是虚拟机,现在随着资源的划分,这个虚拟机今天运行A,明天运行B,我要有能力根据资源池里面各个虚拟机本身的变化,去追踪它的监控。第二,在整个服务保障的监控里面,BMC能够自动的去跟踪你所有的虚拟机的变化,并且支持现在可以看到的所有虚拟化的平台。在服务保障里面,如果大家在做复合云,或者在公用云使用的时候会发现,在这里面还会用到外部的云,这对一些国外用户比较多,国内用户现在也慢慢多起来。在国内来说,就像移动和其他的一些电信,政府慢慢也在做公用的云,BMC现在在全球推出的方案当中,已经内置了针对于Amazon提供的监控,不光能够从云上采取数据,同时也能够了解当前云的部署情况,它的资源使用情况。

从服务保障的层次来看,从IT运维角度或者云管理角度来看,我们需要不断保障我资源的使用。***我必须要了解资源是不是好的,这些资源是否足够用。第二,这些资源如果不够用了我如何去分配,或者看哪些地方有相应的资源可以使用。在整个容量管理里面,针对于云,通过BMC的容量管理方案,***我可以从你的各种监控里面发现整个虚拟环境的使用情况,资源分配的情况,虚拟环境里面会包括主机,服务器各种资源。第二,我可以在这里面找出现在你哪些空间是可以用的,或者哪台服务器是比较紧张的。这时候我就会考虑,我通过容量的规划,我去看一下,如果我把新的虚拟化的资源部署到新的服务器以后,当前资源竞争的情况会不会有改善,在这里面我们都会进行一些考量。从整体来说,从云生命周期管理里面,在云服务保障里面,我们关注的是BMC用户体验管理,主动性能监控管理,容量管理,还有报表与分析。

下面我们再看一下BMC在其他监控里面,各个产品模块的一些特点。在整个监控里面,***,主动式的性能管理。它能收取各种各样的数据,包括SAP的监控,还有其他虚拟环境的数据都可以进行收集,收集的时候不光光采集单组组件的性能,还采集应用的性能。收集上来以后我要做一些数据处理,这些数据处理上我有很多特点。***,它会采用动态阈值手段进行分析。第二,可以采用各种智能化的手段,发现各个监控对象之间的关系,通过这些关系列举出你相应问题发生以后,每个事件后台对应的根源模块的情况。当我们实际在监控的时候,我们不光在云环境监控,或者在传统的IT架构里面监控,如果出现问题以后,你能不能帮我去做一些自动的修复,比如我的文件系统满了,你能不能自动帮我清除一下,更进一步的包括如果出现问题以后,能不能帮我判断一下,现在这个问题是因为配置变更导致的,还是因为服务停止导致的。在这里面bbpm都可以帮助你解决这些。

在BMC的容量管理里面,我们看几点,一个是过去的状况是怎么样的。第二,我现在的状况是不是能够支撑。第三,我未来的状态如果改变了,我现在怎么去应对它。这在里面,从整个模块里面会包括三点,***我现在容量问题的分析,这些数据你可以是BMC自己采集,也可以是你原来的一些数据,比如我原来监控产品的一些数据,或者你原来压力测试的数据都可以放在里面来分析。第二,如果出现问题以后,我要看一下有什么方式去解决它,比如我的物理服务器需要做一些变动,如果我做了变动以后,我目前的容量状况能不能改变,在这里面都可以进行相应的分析和判断。***一点,我们看一下,在BMC的应用管理的模块里面,我们会提供几个能力,***,我们可以从实际用户的交易里面去获取很多信息,比如现在实际的用户有哪一些交易在做,分析以后我会提供一个相应的能力去发现,原来你的趋势是什么样的,现在出现什么问题了,如果同正常的运行不一样,在这不一样里面到底是哪些不一样,是你的出错量大于正常的情况,比如原来在某个地方可能出错两三笔,现会达到几十笔,这样我们就需要去关注。收到这些信息以后,在整个容量分析里面就可以做比对,一个看原来的情况是怎么样的,原来运行的模式是什么样的,如果现在出现问题以后,具体的数据是怎么样的,趋势是怎么样的,并且是谁出现了这些问题,为什么出现?在这里面还可以提供各种手段,我可以针对各个区域进行分析。最重要一点在应用管理里面,不光光要发现问题,实际发现问题以后还有很多表象,我们还要有能力定位到底在哪些组件里面出现错误,比如我在访问的时候是数据库访问缓慢还是外面站点访问缓慢,BMC的解决方案都能够帮你分析这些问题。

责任编辑:张玉 来源: 51CTO
相关推荐

2009-09-22 12:28:17

甘肃电力北塔主动性

2021-08-17 14:32:57

大数据税务数据分析

2009-10-26 10:00:08

2020-06-24 07:42:58

物联网智能扬声器可穿戴设备

2021-01-04 10:54:58

云计算容量管理

2010-10-11 11:19:01

2015-03-27 09:41:04

云环境搭建数据合规性云服务

2016-10-17 16:37:08

华为 云监控

2020-10-29 10:47:25

云计算容量管理

2012-11-28 17:58:37

云服务网路安全网络架构

2010-03-24 14:38:39

APC

2011-12-19 14:22:36

云计算虚拟化

2011-12-13 19:52:18

BMC云计算管理

2013-04-24 10:31:44

公有云云安全

2011-06-24 10:23:10

云计算容量管理BMC

2016-06-17 09:59:43

云计算

2011-12-29 09:32:28

云计算

2020-11-24 09:36:19

分布式监控系统

2022-04-13 10:43:50

业务连续性威胁管理CIO

2023-02-08 09:42:30

策略方式容量
点赞
收藏

51CTO技术栈公众号