如何避免淹没在云原生可观测性数据中

大数据 云原生
了解云原生性能可以更好地为站点可靠性工程师(SRE)和平台工程师提供实时洞察力,帮助在出现问题时快速响应。

传统的应用程序性能监视(APM)在新的云原生堆栈中并不总是能发挥作用,两者在规模和数据量方面存在根本差异。此外,当一切都在容器中运行时,必须围绕数据的临时性设计和优化监视。

了解云原生性能可以更好地为站点可靠性工程师(SRE)和平台工程师提供实时洞察力,帮助在出现问题时快速响应。因此,人们近年来看到对云原生全栈可观察性的兴趣激增,其中涉及指标、日志和跟踪,以揭示事件的根本原因。

Chronosphere公司联合创始人兼首席执行官Martin Mao表示,可观察性的一个关键目标是减少平均恢复时间(MTTR)。然而令人惊讶的是,这一指标在许多企业中实际上正在增加,工程师们可能会遇到数据疲劳,因为在处理大量通知时识别警报很棘手。Mao对于如何管理云原生可观察性数据进行了分析和阐述,并介绍了一些技巧,这些技巧可以帮助企业在可观测数据的海洋中保持头脑清醒。

可观察性的趋势

首先,许多开源工具正在涌现以支持云原生可观察性任务,该任务与云计算提供商或计算环境无关。云原生计算基金会在一项研究中发现,工程师们正在积极使用OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex和OpenMetrics等开源工具。

Martin Mao曾领导Uber公司可观察性团队,他对当今平台运营的需求有着深刻的洞察力。Uber公司的开发人员意识到应用程序性能监控(APM)的不足,并试图开发自己的工具,从而催生了开源指标平台M3和开源分布式跟踪系统Jaeger等项目。

但是,对那些华而不实的云原生技术的投资确实有不利的一面。他表示,人们越来越担心这些工具产生的大量数据。可观察性数据的增长远远超过业务和基础设施的增长,这意味着不仅难以解析,而且过多的可观察性数据可能会创建新的数据湖,带来数据存储和集成的新问题。

Mao说,“由于产生了更多数据,需要筛选的警报也越来越多,这些警报开始妨碍企业找出解决这些问题的方法。”

解决方案:优化保留和分辨率

Mao表示,企业可以通过围绕数据保留和解决设置限制来解决这些问题。以下深入了解这些概念的含义。

(1)数据保留

随着许多工具产生不断升级的数据维度,企业的可观察性数据可以快速积累。阻止数据积累的第一种方法是限制数据的收集时间和存储时间。

例如,是否有必要无限期地保存在单个部署过程中收集的所有数据?在当今的迭代开发周期中,永远存储这些点可能不是明智之举。这可能意味着将默认存储时间进行缩减。

此外,未能对收集数据的时间设置限制会导致可观察性数据激增。例如,只有在主动调试时,实时记录调试端点才有意,否则没有必要收集数据。

(2)数据分辨率

数据分辨率是指记录的时间序列数据的粒度。正如Mao指出的那样,每秒记录数据与每小时记录数据基本上相差3600倍。因此,优化数据收集的分辨率对于减少采用成本高昂的存储设备非常重要。

为可观察性数据调整数据分辨率在很大程度上取决于手头的用例。回到持续集成(CI)/持续交付(CD)示例,如果在回滚时收集部署数据,希望每一秒都具有高分辨率,因为这是关键时刻。另一方面,如果企业要进行一年的容量规划,那么可能不需要在第二年之前保留历史容量信息,因为这过于细化。

其他提示

优化数据保留和分辨率可以限制记录的数据量。这有助于保持更小的占用空间,并生成更少的数据点进行筛选。与其他监控方法相比,调整分辨率通常是一种更好的折衷方法,例如只记录生产团队的10%,这可能会给许多用户带来困扰。

拥有一种动态选择加入和退出数据收集过程的方法可以减轻一些前期工作。这可以被认为是自动应用更智能的默认值。一旦知道什么是有效的,就可以围绕可观察性数据收集和存储过程设置通用模式,这些模式可以在企业中共享。

Mao指出,为了更好地处理数据,团队将需要工具来修改和可视化他们正在收集的数据。此外,由于工作人员在调试时可能不需要每个数据点维度,因此他们可能会受益于预先计算所需答案的机制。

结语

可观察性趋势可以为帮助数字平台优化运营带来巨大好处。可观察性有助于减少响应问题的时间并改善最终用户体验。他说,“可观察性在其中起着关键作用,它让人们了解这些做法是否有用。”

然而,向云原生架构的加速过渡产生了新警报和信号的风暴。如果不加以解决,这些数据会迅速堆积起来,从而需要对数据本身有更高的可见性。Mao说:“带来的价值需要被重视。”

世界正在产生大量数据,数据会占用更多空间。它会累积并且大规模存储的成本很高。然而,人们仍然认为数据是免费的,通常不会为数据生命周期制定计划。Mao说:“负责可观察性后端的人员的心态不应该是创建一个数据湖,在某种程度上必须采取一些措施。”

为了抵消这种趋势,运营商不能以同样的方式对待每一个数据。总之,为了避免淹没在可观察性数据湖中,需要限制不必要的数据收集,并围绕数据收集的时间、粒度、可视化方式以及存储时间实施更智能的优化。

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2023-10-26 08:47:30

云原生数据采集

2023-09-20 16:11:32

云原生分布式系统

2023-11-27 10:18:05

工业4.0物联网

2023-08-07 08:48:13

2023-10-13 13:40:29

2023-11-01 06:55:05

人工智能可观测性IT

2023-03-30 16:30:08

可观测云原生

2023-07-26 00:12:04

2022-07-13 08:45:29

云原生容器网络

2021-11-19 09:40:50

数据技术实践

2023-03-09 08:00:22

2023-05-18 22:44:09

2022-06-07 13:48:25

可观测性架构系统开发

2023-06-15 15:11:01

数据中心服务器

2023-09-27 17:46:15

数据VectorELK

2022-06-22 16:31:26

阿里云数字化转型云原生
点赞
收藏

51CTO技术栈公众号