微软亚洲研究院智能运维:云服务的智能原动力

原创
云计算
AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

疫情已经改变了人们生产、生活的方式。协同合作、远程办公、在线教育等场景成为了常态,而这些场景也对基础设施提出了更高的要求。

Gartner 研究副总裁 Sid Nag 认为,云已经成为主流策略:“下一代的产品方案,几乎都是搭建于云平台上的。”但随着越来越多的用户上云,系统的管理正面临着前所未有的挑战。海量用户、大规模集群、复杂的系统架构使传统的运维方式力不从心。如何实时检测异常、快速响应故障、预测故障、合理规划容量等问题已成为重要课题。此时,智能运维AIOps闪亮登场。

AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。根据Gartner的战略规划假设,到2023年,将有40%的DevOps团队将通过用于IT运营(AIOps)平台的AI增强应用程序和基础架构监视工具。

在炙手可热的人工智能领域,数据驱动、AI 赋能的微软云始终以理性而乐观的姿态立足于全球云服务市场。数据为微软云的管理提供了新的维度——数据智能。微软亚洲研究院常务副院长,微软杰出首席科学家张冬梅表示,微软主要从三个方面来定义AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在这些应用场景中面临着诸多挑战。

AIOps的应用:精准预测、高效解决、更好服务

AI for System要求开发者能从运行的系统角度看问题,比如系统异常检测不仅仅是找到问题,最好还可以提前预警。以硬盘故障预测为例,开发者可以通过分析已经发生改变的数据或状态,来预测磁盘是否有故障,系统在学习了大量硬盘的历史数据后,对照目前磁盘的状态,预测将来是否可以及时采取措施。此外,除了发生故障的硬盘,还需要考虑其邻近磁盘的情况。

微软亚洲研究院首席研究员林庆维介绍说,微软亚洲研究院研发了邻域-时间注意力模型(NTAM)。该模型包含了邻域感知组件、时间组件、决策组件,在时间和空间上都能够捕捉更多的信息。林庆维表示,通过与过去 10 年、20 年最前沿的期刊或者会议上的论文方法对比,该模型从精确度和召回率方面都有很好的效果,预测能力很强。

AI for DevOps主要针对的是开发和运维人员的生产效率。在出现问题时,解决问题并不仅仅是快速恢复正常,而是如何通过大量的检测、诊断,来更快、更高效地解决问题本身。相关部署通常从非常小的规模开始,逐步扩大规模,在确认每一步都安全后才能部署到云平台。整个部署过程中需要检测所有的健康信号,包括资质、传感器信号、状态等。当任何一方面出现问题时,开发人员首先会检查是不是某个部署问题导致,同时根据部署做关联性排查。

针对AI for DevOps方面的安全部署诊断问题,微软亚洲研究院提出了主动迁移学习异常检测(ATAD)方案。该方案通过迁移学习把从别的数据上学到的知识转化为目标领域,同时通过主动学习让工程师排出优先级,得到更好的学习效果。目前该方案已经用到了微软云平台中。“这个方案通常很难获得高质量的标签数据,所以需要工程师有非常强的见解才能作出判别。” 林庆维表示。

AI for Customer则要打造更好的用户体验,为客户提供更好的服务。

林庆维以智能虚拟机预配置为例,介绍了微软亚洲研究院在AI for Customer方面所做的部分研究工作。云平台申请虚拟机需要时间,解决这个问题的方案之一就是预先装好软件和系统的配置,当用户有需求时可以直接用。但虚拟机池的容量有限,每种类似的机型不可能配置很多,所以需要预测用户会配置什么类型的虚拟机,以实现最优配置。微软亚洲研究院对此提出全新方法框架,将不确定性感知框架用于预测与优化。结果表明,该方法实现了相较于其他算法更优的表现。  

伴随着微软亚洲研究院数据、知识、智能组与微软云产品团队的深度合作,一系列创新技术已经在云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景中落地,相关研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影响力会议中发表, 极大地提升了服务质量、用户体验和工业生产力。

AIOps的未来:自主化、主动化、通用化

谈到未来AIOps的研究方向,林庆维表示,首先是更加自动化、自主化。目前AIOps的方向更多的是给用户提供一定的建议和推荐,但是微软亚洲研究院希望在未来,AIOps能够更加自主化,可以自动做决策,帮助用户做出最优的决策,而不需要人工的干预;二是更加主动化,不能等到问题出现了才想起来解决问题,而是把问题遏止在萌芽的状态;三是会更加通用化,跨平台的AIOps应用不仅服务于云平台,而是服务于所有平台。



责任编辑:赵立京 来源: 51CTO
相关推荐

2009-04-21 14:36:44

微软女性职场

2017-02-10 16:44:39

微软人工智能深度学习

2023-12-01 13:54:00

训练AI

2009-02-17 11:52:44

2009-02-24 10:07:58

开发微软盖茨

2015-12-18 11:54:20

微软亚洲研究院图数据库

2018-04-24 14:39:07

微软航运人工智能

2018-01-31 16:06:36

培生微软人工智能

2019-05-14 10:33:35

人工智能教育部微软

2015-11-11 14:01:26

微软开源分布式

2018-09-17 11:00:05

AWS人工智能亚马逊

2018-11-06 15:46:57

微软物联网计算

2020-06-30 09:35:25

智能运维云架构IT运营

2014-06-19 13:49:41

微软加密库JavaScript加

2023-01-06 08:20:44

AIkexue

2021-06-25 09:47:06

KDD Cup Graphormer

2021-03-22 11:16:50

人工智能应用基础设施

2021-01-21 21:45:07

软通动力数字化云原生

2014-10-30 09:24:08

VMware

2009-10-30 11:58:26

点赞
收藏

51CTO技术栈公众号