聊聊昨天说的那个ORA-4030

数据库 Oracle
Oracle官方的解决方案是加大_realfree_heap_pagesize_hint或者修改max_map_count。调整任何一个参数都可以让Oracle PGA能够MAP更多的物理内存。

​昨天有朋友看了我的文章提问CHATGPT能不能解读AWR报告。怎么说呢,我们先来看一个例子。

图片

我输入了一个AWR报告的TOP 10 EVENT,看看CHATGPT如何解读吧。

图片

如果说解读AWR的TOP EVENTS数据,我想CHATGPT不会比一些人类DBA差了,实际上最初的时候我也是如此解读AWR报告的,只不过AWR报告不仅仅需要能解读,还需要能分析,能够把AWR中各种相关的数据综合起来分析,才能从AWR报告中分析出深层次的问题。对于一些十分明显的问题,仅仅从TOP EVENT就可以看出来了,而绝大多数复杂的问题,是无法从这些地方找出答案的。这一点CHATGPT肯定做不到,甚至大多数人类DBA也做不到。不过如果经过足够的训练,CHATGPT也可能能做到。

图片

实际上,临时表空间的直接路径读写肯定是与非优化的大排序有关,如果我来解读AWR的时候,遇到这个情况,肯定要去翻PGA相关的数据。从而发现存在一些大SQL的硬盘排序过多。

要想让CHATGPT做到这一点,不仅仅需要更多的训练,更需要高水平的DBA采用正确的方法与它对话,引导它向正确的方向上计算,从而完成深度的解读。

我们还是回到昨天提到的那个案例,对于DBA来说,ORA-4030可能是一个十分明确的问题,我也一直是如此认为的。ORA-4030不外乎物理内存耗尽,操作系统ULIMIT限制,操作系统根目录空间等因素。直到上星期一个客户的一个具有1.5TB的超大内存系统报ORA-4030错误我才认识到以前知识的局限性。

客户的一个数据库系统出现了一些ORA-4030报警,都集中在采集TOP SQL的监控系统中,普通业务模块并未报警。         

图片

当时的报错场景是有些奇怪的,从SWAP INFORMATION上看,这个报错十分没有道理。物理内存还有近400GB的FREE,SWAP基本没用。但是在执行一条访问v$sql的语句的时候,出现了无法映射内存的错误。

图片

当时的报错信息是这样的,报错位置是:kxs-heap-w,kqlfto,kqlfo:kqlfoobj。Kxs-heap-w的含义是执行SQL的时候分配一个内存用于写入,kqlfto是数据库内核与OS BUFFER之间的缓冲。Kqlfoobj是从SGA向PGA/UGA写入数据时产生的。串联起来是当会话在执行SQL语句的时候,从SGA向会话私有内存输出数据的时候,无法分配内存。从下面的TOP 10内存使用情况看,kqlfto:kqlfoobj占了72%,达到2935MB。反推一下,总的进程内存大约是4076MB。

经过分析后,当时我们认为通过调整vm.max_map_count可以解决这个问题,不过用户暂时不同意调整。于是我们只能从另外一个角度去做调整。当时发现报错的实例的SQLAREA特别大,于是在业务不忙的时候刷新了一下共享池,让130多GB的SQLAREA变得正常了,访问V$SQL采集SQL的功能才恢复了正常。采用这种处置方式的原理是SQLAREA中数据少了,向PGA输出数据时,PGA就不会达到4G的限制了。实际上这个案例最终还是要通过调整OS或者数据库参数来解决。

事后分析的时候,我们在MOS上也查到了大量的NOTES。这个问题是和Oracle的实内存分配(非共享内存分配)有关的。

图片

_realfree_heap_pagesize_hint(12c之后,这个参数改名为_realfree_heap_pagesize)是 Oracle 数据库中的一个参数,用于设置非共享内存管理器的页面大小。真正的空闲内存管理器用于管理数据库用于PL / SQL内存和其他非共享内存的真实内存(非SGA)。其默认大小是64KB。因为RHEL操作系统的vm_max_map_count是65530,能够影射的内存大小是有限的,Oracle的_realfree_heap_pages参数定义了每个影射的块大小,Oracle 11g默认是64K,所以PGA中最多可以影射4GB的物理内存。如果超出这个限制,就会因为max_map_count的限制而无法分配内存。

Oracle官方的解决方案是加大_realfree_heap_pagesize_hint或者修改max_map_count。调整任何一个参数都可以让Oracle PGA能够MAP更多的物理内存。

根据这个情况,我们需要更新ORA-4030的知识库,增加故障模型中的诊断路径,把相关的Oracle参数,OS参数等因素加入进去,同时在数据库巡检时增加对这方面的分析与诊断。知识就是这样通过不断地迭代,日益完善的。运维知识完善的基础是来自于生产一线的运维案例。​

责任编辑:武晓燕 来源: 白鳝的洞穴
相关推荐

2020-09-11 07:38:50

内存泄漏检测

2022-11-14 12:23:25

2021-02-04 13:10:32

归并排序算法

2020-11-02 12:47:56

性能优化

2023-03-06 00:22:33

智能制造物联网工业 4.0

2013-01-10 20:18:25

2009-10-21 21:34:57

802.11n

2017-11-29 16:32:29

网络运维

2021-04-07 10:57:00

人工智能机器学习

2022-08-22 09:25:47

分布式系统单块系统

2020-05-06 22:07:53

UbuntuLinux操作系统

2016-12-12 13:32:32

2015-03-12 09:57:44

App StoreDNS宕机

2015-03-12 11:04:39

App StoreDNS宕机

2019-09-03 15:46:18

2021-01-14 08:58:12

Synchronize锁操作

2011-07-20 10:44:10

Hadoop分布式计算开源

2023-11-02 09:25:42

springSystem

2020-11-23 07:00:38

代码美颜 格式化

2015-03-19 10:26:50

点赞
收藏

51CTO技术栈公众号