宜信正式开源其AIOps落地三大利器

大数据
宜信技术研发中心在CNUTCon全球运维技术大会上宣布正式开源支撑AIOps 的三大利器:UAVStack, Wormhole, DBus.

 宜信技术研发中心在CNUTCon全球运维技术大会上宣布正式开源支撑AIOps 的三大利器:UAVStack, Wormhole, DBus.

不断开放开源技术,推动技术共同成长是宜信技术生态的目标之一。包括正式开源的UAVStack,Wormhole,DBus等在内,已经开放七个系列的软件技术。

宜信开源软件系列

[[203218]]

UAVStack是智能化服务技术栈,是研发运维一体化的解决方案,开源系列包括全维监控(UAV.Monitor),应用性能管理(UAV.APM),服务治理(UAV.ServiceGovern),微服务计算(UAV.MSCP)。其中,UAV.Monitor+APM为智能运维采集全维监控数据,是一站式的全维监控+应用运维解决方案。

宜信

DBus专注于数据的收集及实时数据流计算,通过简单灵活的配置,以无侵入的方式对源端数据进行采集,经过转换处理后成为统一JSON的数据格式(UMS),提供给不同数据使用方订阅和消费。

此外,DBus还提供以下特性:

1. 多种数据源支持,海量数据实时传输

 2. 初始加载和独立加载

3. 统一标准化消息传输协议,可靠多路消息订阅分发

4. 支持分表数据汇集

DBus技术架构

宜信

Wormhole是一个SPAAS(Stream Processing as a Service)平台解决方案,面向大数据项目的开发,运维以及管理人员,致力于简化和统一开发管理流程。运维是典型的大数据应用领域,是机器学习的有力支撑,尤其是针对流式实时和流式准实时数据处理场景。

Wormhole技术架构

宜信

智能运维的自研之路

Gartner定义了基于算法的运维(ITOA),算法即运维,将算法运用运维领域。实际上我们在自动化运维体系中已经将算法落地到DevOps工具链中,日益兴盛的人工智能技术,让我们意识到赋予系统“智能化”是大趋势。我们对AIOps的解读是:AIOps正是将人工智能技术应用到IT运维领域,帮助变革运维模式,提升效率和创造现实价值的“工程化”过程,也是DevOps的进化方向。它会成为

1.  运维管理的成员:协调人与系统,不是被动的工具,而是直接参与运维的“助手”

2. 业务运营支持的成员:协调人与业务,参与运营的“助手”

3. 业务与系统的“全知”者:协调业务与系统,管理系统,支撑业务

宜信

落地方案

宜信

宜信的AIOps平台是以任务机器人为中心,利用大数据平台实现机器学习和统计模型的处理,与DevOps工具链深度集成。可从几个层面来解读这个架构:

DevOps工具链为任务机器人HIT的知识图谱构建提供了高质量的原始数据

任务机器人HIT的核心能力来源于特定领域的知识图谱和计算模型。目前我们的训练领域包括系统API模型,个性化交流上下文,服务拓扑,执行计划,问题诊断等。知识图谱是实现认知关联的核心技术,而如何自动化构建知识图谱是关键的关键,成熟的DevOps工具链可以为自动化构建知识图谱提供高质量的原始数据。

全维监控UAV为任务机器人HIT的模型训练提供了全面维度的原始数据

在智能运维体系中,UAV采集的全维度监控数据是机器学习的原始数据来源。全维度监控数据覆盖基础设施性能,应用/服务性能,日志,调用链,线程栈,客户端体验,业务指标,应用画像,服务图谱。

宜信

数据总线DBus持续的,自适应的将全维监控数据导入大数据存储

全维度的监控数据还不能直接使用这些数据来做机器学习。其原因是由于它们的存储和查询需求是根据实时监控领域的需要来定义的,因此它们有以下特点:

1. 存储在不同的存储源。例如服务画像数据存储在MongoDB,应用日志和调用链存储在Elastic Search中,应用性能指标和基础性能指标数据存在RocketMQ中等;

2. 有不同的schema定义。例如BIN日志格式,JSON格式,Plain日志格式,性能指标的schema与调用链的schema是不同的。

3. 不同的变更策略。例如服务画像数据是根据应用升级不定期变化的,日志数据也可能是这样。

DBus正是解决这三个问题的良方。

1. 能够支持多种数据源,只需通过配置就可实现无侵入对接。

2. 能够将不同的格式转换成标准格式(UMS格式)。

3. 有自动适应的能力,匹配这些类型和格式的变化。

大数据处理Wormhole针对目标场景,基于全维监控数据进行机器学习和统计模型处理

Wormhole是任务机器人的计算模型生产者。Wormhole基于Spark,既可接入Kafka在线实效数据进行流式处理,也可接入HDFS离线历史数据进行批量处理。Wormhole不光支持落地多Sink,还支持流上处理,还可以在落HBase之前流上做一些数据清洗扩展等操作。目前我们的任务机器人HIT的训练主题“问题诊断”的计算模型都是由Wormhole来实施训练,实际生产过程中会使用机器学习和某些经典统计模型,主要的有:

1. 时序数据的趋势预测模型:可以根据过去若干天来预测未来一段时间某重要指标的趋势走向。

2. 指标的关联组合模型:识别出哪些指标组合是判断异常的充分条件。

3. 组合指标的异常点识别模型:组合指标在时序上异常点的自动判别。

4. 问题节点的根源分析模型:跨多节点的异常行为关联性识别模型。

任务机器人HIT通过API模型实施执行计划

任务机器人与普通系统的另一个重要区别是:普通系统可以看成是通过编码来“机械”的完成某种事,就系统本身而言,它并不理解“我在做什么”。而任务机器人是以目标驱动的,它根据API模型以及其他认知模型(知识图谱)来生成执行计划,并使用API模型来实施执行计划,执行计划的本质是对DevOps系统API的调用。这样的应用场景是很多的,例如让任务机器人去做系统上线,线上巡检,协助问题处理,甚至支持运营协作等。

责任编辑:赵立京 来源: 51CTO
相关推荐

2017-09-11 19:01:13

宜信AIOps

2019-07-17 15:10:12

WOT2019人工智能

2021-03-08 16:12:35

AIOpsIT人工智能

2018-03-30 16:34:51

AIOps运维变革

2019-12-31 10:33:48

架构运维技术

2019-08-13 15:27:11

开源技术 趋势

2021-03-08 16:18:07

AIOps工具监控与管理

2018-08-02 09:44:35

AIOps实践数据

2017-08-30 11:51:12

AIOps智能运维

2019-10-29 09:00:00

AIOps人工智能

2012-02-10 08:43:48

2019-12-26 15:50:33

容器云平台软件

2014-09-10 10:14:14

2020-08-27 08:17:05

缓存高并发系统

2022-05-12 09:58:31

LinuxNVIDIA开源

2021-03-08 16:08:21

AIOps工具开源

2012-08-17 10:13:14

火狐下载

2011-11-18 10:17:02

云计算

2012-04-11 09:52:32

开源MySQL
点赞
收藏

51CTO技术栈公众号