社区编辑申请
注册/登录
微软亚洲研究院智能运维:云服务的智能原动力 原创
云计算
AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

疫情已经改变了人们生产、生活的方式。协同合作、远程办公、在线教育等场景成为了常态,而这些场景也对基础设施提出了更高的要求。

Gartner 研究副总裁 Sid Nag 认为,云已经成为主流策略:“下一代的产品方案,几乎都是搭建于云平台上的。”但随着越来越多的用户上云,系统的管理正面临着前所未有的挑战。海量用户、大规模集群、复杂的系统架构使传统的运维方式力不从心。如何实时检测异常、快速响应故障、预测故障、合理规划容量等问题已成为重要课题。此时,智能运维AIOps闪亮登场。

AIOps在多方面都直击传统运维的痛点。AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。根据Gartner的战略规划假设,到2023年,将有40%的DevOps团队将通过用于IT运营(AIOps)平台的AI增强应用程序和基础架构监视工具。

在炙手可热的人工智能领域,数据驱动、AI 赋能的微软云始终以理性而乐观的姿态立足于全球云服务市场。数据为微软云的管理提供了新的维度——数据智能。微软亚洲研究院常务副院长,微软杰出首席科学家张冬梅表示,微软主要从三个方面来定义AIOps: AI for System、AI for Customer、AI for DevOps。AIOps在这些应用场景中面临着诸多挑战。

AIOps的应用:精准预测、高效解决、更好服务

AI for System要求开发者能从运行的系统角度看问题,比如系统异常检测不仅仅是找到问题,最好还可以提前预警。以硬盘故障预测为例,开发者可以通过分析已经发生改变的数据或状态,来预测磁盘是否有故障,系统在学习了大量硬盘的历史数据后,对照目前磁盘的状态,预测将来是否可以及时采取措施。此外,除了发生故障的硬盘,还需要考虑其邻近磁盘的情况。

微软亚洲研究院首席研究员林庆维介绍说,微软亚洲研究院研发了邻域-时间注意力模型(NTAM)。该模型包含了邻域感知组件、时间组件、决策组件,在时间和空间上都能够捕捉更多的信息。林庆维表示,通过与过去 10 年、20 年最前沿的期刊或者会议上的论文方法对比,该模型从精确度和召回率方面都有很好的效果,预测能力很强。

AI for DevOps主要针对的是开发和运维人员的生产效率。在出现问题时,解决问题并不仅仅是快速恢复正常,而是如何通过大量的检测、诊断,来更快、更高效地解决问题本身。相关部署通常从非常小的规模开始,逐步扩大规模,在确认每一步都安全后才能部署到云平台。整个部署过程中需要检测所有的健康信号,包括资质、传感器信号、状态等。当任何一方面出现问题时,开发人员首先会检查是不是某个部署问题导致,同时根据部署做关联性排查。

针对AI for DevOps方面的安全部署诊断问题,微软亚洲研究院提出了主动迁移学习异常检测(ATAD)方案。该方案通过迁移学习把从别的数据上学到的知识转化为目标领域,同时通过主动学习让工程师排出优先级,得到更好的学习效果。目前该方案已经用到了微软云平台中。“这个方案通常很难获得高质量的标签数据,所以需要工程师有非常强的见解才能作出判别。” 林庆维表示。

AI for Customer则要打造更好的用户体验,为客户提供更好的服务。

林庆维以智能虚拟机预配置为例,介绍了微软亚洲研究院在AI for Customer方面所做的部分研究工作。云平台申请虚拟机需要时间,解决这个问题的方案之一就是预先装好软件和系统的配置,当用户有需求时可以直接用。但虚拟机池的容量有限,每种类似的机型不可能配置很多,所以需要预测用户会配置什么类型的虚拟机,以实现最优配置。微软亚洲研究院对此提出全新方法框架,将不确定性感知框架用于预测与优化。结果表明,该方法实现了相较于其他算法更优的表现。  

伴随着微软亚洲研究院数据、知识、智能组与微软云产品团队的深度合作,一系列创新技术已经在云系统的故障预测、异常检测、智能诊断、容量规划、事故管理等诸多实际应用场景中落地,相关研究成果也在 ICSE、OSDI、USENIX ATC、WWW、AAAI、KDD 等高影响力会议中发表, 极大地提升了服务质量、用户体验和工业生产力。

AIOps的未来:自主化、主动化、通用化

谈到未来AIOps的研究方向,林庆维表示,首先是更加自动化、自主化。目前AIOps的方向更多的是给用户提供一定的建议和推荐,但是微软亚洲研究院希望在未来,AIOps能够更加自主化,可以自动做决策,帮助用户做出最优的决策,而不需要人工的干预;二是更加主动化,不能等到问题出现了才想起来解决问题,而是把问题遏止在萌芽的状态;三是会更加通用化,跨平台的AIOps应用不仅服务于云平台,而是服务于所有平台。



责任编辑:赵立京
相关推荐

2022-05-18 23:42:08

网络安全安全分析工具

2022-05-17 15:51:32

数据中心运维能力基础设施

2022-05-09 11:57:39

云原生实践安全

2022-04-18 18:04:16

锐捷平台

2022-04-21 10:01:48

VMware

2022-03-04 10:38:48

人工智能智能运维AIOps

2022-05-16 13:37:12

Sysrv僵尸网络微软

2022-05-11 15:08:52

驱动开发系统移植

2022-05-12 13:44:35

2022-05-18 20:28:23

数字化转型云计算

2022-04-26 23:42:08

Windows 10微软升级

2022-05-16 07:35:21

Windows远程桌面远程服务器

2022-03-22 08:41:13

阿里巴巴云原生大数据

2022-05-12 14:44:38

数据中心IT云计算

2022-04-12 09:48:22

云计算安全云服务云安全

2022-05-11 14:48:33

腾讯云寿险民生保险

2022-05-06 09:40:48

智能云原生云原生人工智能

2022-04-14 10:22:30

NginxLinux

2022-05-16 08:33:54

漏洞微软安全补丁

2022-04-23 17:49:05

元宇宙51CTOMetaCon

同话题下的热门内容

运维入坑必看:Kubernetes平台架构解读云原生下一步的发展方向是什么?英伟达CTO:从云到元宇宙一起聊聊什么是云原生技术云存储架构的技术特点与三个发展方向云原生时代来临,云安全技术将何去何从?多集群Kubernetes管理和访问预计2020-2025年中国边缘计算服务器年复合增长率将达22.2%

编辑推荐

一文让你看懂IaaS、PaaS和SaaS看完小白也能懂什么是公有云、私有云、混合云陌陌基于K8s和Docker容器管理平台的架构实践科技公司创始人谈MySQL的未来AWS公布AWS媒体服务家族,专为完整视频工作流提供支持
我收藏的内容
点赞
收藏

51CTO技术栈公众号