聊聊操作系统监控利器OSW

数据库 其他数据库
二十多年的优化生涯中多次因为用户安装了OSW而在黑暗的探索中找到了方向,因此我已经习惯了用OSW的数据而不是用不一定靠谱的推测去分析数据库异常与操作系统状态的关联性,有了这一块拼图,才让整个故障分析变得真正的无懈可击。

​国产数据库/开源数据库监控中,操作系统监控是十分重要的一方面。最近遇到几次用户的数据库问题,最后都是定位到了操作系统方面的性能问题。D-SMART在针对Oracle数据库运维的时候,我们提供了一个工具,用于对OSW的数据进行分析。不过如果我们面对的不是Oracle数据库,那么该用什么工具呢?前些时候我做了大量的搜索,居然没有找到一款能够完全媲美OSW的操作系统监控工具。功能最为相近的是nmon,如果仅仅是监控linux操作系统,那么nmon的能力接近于OSW。不过有一个十分致命的问题就是,当nmon做后台采集的时候,无法使用-D -d参数采集磁盘IO的详细情况,仅仅能采集到磁盘的busy%数据。对于早期的计算机系统而言,busy%可以反映出磁盘的繁忙程度,而对于现在的磁盘系统来说,100% busy并不一定意味着性能问题。而分析诊断数据库问题的时候,如果没有磁盘IO的详细信息,定位问题的效果就差了不少。

国产数据库的可观测性能力本身就偏弱,很多问题分析必须结合OS的监控数据,才能做的比较彻底,特别是需要做故障定位的时候,更是离不开OS的监控数据。我也希望国产数据库厂商能够自研一个OS性能监控数据的自动采集工具。不过目前我们还无法从国产数据库厂商处获得这样的工具。国产数据库服务器,也只能安装一套OSW才行啊,这也是我们给国产数据库用户提出的一个建议。

OSW(OSWatcher)是Oracle公司研发的一个免费软件,一个通用的操作系统性能监控工具,它可以用于监控任何支持的操作系统。作为一个ORACLE DBA,我在差不多二十年前就开始在性能优化项目中使用OSW。从Oracle 11.2.0.4开始,用户不需要自己下载安装OSW,因为它已经随着Oracle数据库自动安装在你的数据库服务器上了。我们习惯于在Oracle数据库服务器上用OSW来监控操作系统,不过实际上Oracle的免费使用许可证允许你在非Oracle数据库服务器上使用OSW来监控系统的性能,例如CPU利用率、内存使用情况、磁盘I/O等。Oracle公司的使用协议不会对使用OSW进行操作系统性能监控和分析的用户施加任何限制。OSW可以在任何操作系统上自由使用,并且可以免费下载和安装。

使用OSW来监控非Oracle数据库服务器的性能是完全合法和可行的,但是需要注意,您需要遵守操作系统和其他软件的许可协议和使用规定。

根据Oracle公司的使用协议,其他公司可以在其商业环境中使用OSW(OSWatcher)软件来监控操作系统性能,但需要遵守以下几个要求:

1、保留版权声明:必须在使用、分发或修改OSW软件时保留Oracle公司的版权声明。

2、不允许进行修改:不允许修改OSW的代码,除非获得Oracle公司的书面许可。

3、非独占使用权:不允许将OSW软件独占使用或分发给第三方,除非获得Oracle公司的书面许可。

4、免责声明:OSW软件是按“原样”提供的,没有任何明示或暗示的担保或条件。使用者必须自行承担风险。

从上面的使用协议声明可以看出,用户可以下载OSW工具,并安装在一台运行国产达梦数据库的服务器上,用于OS监控数据的采集,这是完全合法的。不过Oracle并不允许在未经授权的时候,第三方的软件中直接分发OSW,因此OSW无法随着D-SMART发行版或者数据库厂商的数据库产品分发。Nmon在这方面要比OSW宽泛,nmon允许随着第三方软件自由分发。

OSWatcher是一种跨平台的数据收集工具,可以用于监控和诊断Linux、UNIX和Windows操作系统。它可以收集系统资源使用情况的数据,例如CPU利用率、内存使用情况、网络使用情况等。这些数据可以帮助管理员分析系统性能问题,并作出优化和调整的决策。下面是OSW可以采集的一些更具体的指标信息:

lCPU 使用率:可以采集所有 CPU 核心的使用率,包括用户空间、内核空间、空闲等各个状态的使用率。

lCPU 负载:可以采集 CPU 负载的平均值以及每个 CPU 核心的负载情况。

l内存使用情况:可以采集内存总量、空闲内存、缓存和缓冲区、交换空间等各个方面的情况。

l磁盘 I/O 情况:可以采集每个设备的读写带宽、读写 IOPS、平均响应时间、读写字节数等各种指标信息。

l网络 I/O 情况:可以采集每个网络接口的带宽、数据包传输率、传输错误、丢包等情况。

l进程和线程信息:可以采集进程号、进程状态、虚拟内存使用量、RSS、CPU 和内存使用情况等各种信息。

l文件系统使用情况:可以采集文件系统容量、已用容量、可用容量、磁盘空间使用率等信息。

l资源利用率:可以采集系统各种资源的利用率,例如 CPU、内存、磁盘、网络等等。

l数据库性能:可以采集数据库的各种性能指标,例如会话数量、等待事件、I/O 性能等等。

图片

OSW采集的信息十分丰富,包括网卡的信息、IOSTAT、meminfo、mpstat、netstat、进程信息、slabinfo、vmstat等信息。都是数据库系统出现故障时,OS层面容易出问题或者需要关注的方面。这是Oracle公司在售后服务中积累下来的经验。国产数据库厂商完全可以模仿这些内容开发一个工具。

图片

OSW的默认采集周期是30秒钟,采集粒度对于大多数问题分析来说是足够的。OSW原汁原味的保留了OS相关采集命令输出的结果,对于事后分析十分有价值。

二十多年的优化生涯中多次因为用户安装了OSW而在黑暗的探索中找到了方向,因此我已经习惯了用OSW的数据而不是用不一定靠谱的推测去分析数据库异常与操作系统状态的关联性,有了这一块拼图,才让整个故障分析变得真正的无懈可击。希望有兴趣的朋友可以在非Oracle数据库上体验一下OSW,也建议国产数据库用户也在自己的服务器上装上一套OSW,没准什么时候就用得上呢。​

责任编辑:武晓燕 来源: 白鳝的洞穴
相关推荐

2010-06-21 21:50:44

IMOSIT管理H3C

2022-11-28 07:21:53

操作系统内存管理

2022-09-22 08:06:29

计算机平板微信

2021-03-28 13:54:31

操作系统内存管理

2017-05-16 14:31:09

2023-06-09 08:06:14

操作系统调度器LLM

2012-02-20 23:02:15

Linux

2021-03-26 06:27:08

操作系统应用软件浏览器

2020-06-17 07:40:26

监控系统zabbix

2010-06-03 16:18:28

Windows Ser

2009-12-09 17:25:19

Linux操作系统

2010-04-15 14:40:26

Unix操作系统

2011-04-13 17:31:33

2010-04-29 14:08:38

Unix操作系统

2021-04-19 11:23:29

操作系统计算机DOS

2021-11-15 06:56:46

操作系统U盘

2024-04-17 09:52:00

操作系统多线程内存

2020-06-19 08:04:23

监控系统

2009-07-23 18:43:25

操作系统LinuxWindows

2020-12-29 16:39:01

Linux代码命令
点赞
收藏

51CTO技术栈公众号