HiRAG:利用层次知识的检索增强生成下一代GraphRAG

发布于 2025-9-28 06:53
浏览
0收藏

摘要

基于图的检索增强生成(RAG)方法显著提升了大型语言模型(LLMs)在特定领域任务中的性能。然而,现有的RAG方法未能充分利用人类认知中固有的层次知识,这限制了RAG系统的能力。本文介绍了一种新的RAG方法,称为HiRAG,它利用层次知识来增强RAG系统在索引和检索过程中的语义理解和结构捕捉能力。我们的广泛实验表明,HiRAG相较于最先进的基线方法取得了显著的性能提升https://github.com/hhy-huang/HiRAG

全文链接:https://t.zsxq.com/rUMbM

核心速览

研究背景

1.研究问题:这篇文章要解决的问题是如何在基于图的检索增强生成(RAG)方法中更好地利用人类认知中的层次知识,从而提升RAG系统在特定领域任务中的性能。

2.研究难点:该问题的研究难点包括两个方面:(1)现有方法过于依赖源文档,导致构建的知识图谱中存在语义相似但结构上不接近的实体;(2)现有方法在检索上下文时,通常只从全局或局部视角出发,未能有效解决局部和全局知识之间的知识差距。

HiRAG:利用层次知识的检索增强生成下一代GraphRAG-AI.x社区图片

3.相关工作:该问题的研究相关工作有:Gao等人提出的RAG方法,Lewis等人提出的RAG方法,Fan等人提出的RAG方法,Zhang等人提出的RAG方法,Tang和Yang提出的RAG方法,Edge等人提出的GraphRAG方法,Liang等人提出的KAG方法,Guo等人提出的LightRAG方法,Circlemind提出的FastGraphRAG方法,以及HippoRAG和HippoRAG2等方法。

研究方法

这篇论文提出了HiRAG方法,用于解决现有RAG方法中未能充分利用层次知识的问题。具体来说,HiRAG方法包括两个主要模块:层次化知识索引(HiIndex)和层次化知识检索(HiRetrieval)。

1.层次化知识索引(HiIndex):

•首先,使用实体中心的三元组提取方法构建基本知识图谱G0。具体步骤包括将输入文档分割成文本块,并使用LLM提取实体和关系。

•然后,逐层构建层次化知识图谱。对于每一层,首先获取上一层的实体嵌入,并使用高斯混合模型(GMM)进行语义聚类。聚类后,将每个簇的描述输入LLM生成摘要实体。

•通过连接不同层次的实体和关系,更新知识图谱。

•使用Leiden算法计算层次化知识图谱中的社区,并为每个社区生成一个可解释的语义报告。

2.层次化知识检索(HiRetrieval):

•从层次化知识图谱中检索三级知识:局部知识、全局知识和桥梁知识。

•局部知识:检索与查询最相关的n个实体。

•全局知识:找到与检索到的实体相连的社区,并检索这些社区的报告。

•桥梁知识:从每个社区中选择与查询最相关的关键实体,并收集这些实体以形成推理路径,构建子图。

实验设计

1.数据集:使用了UltraDomain基准中的四个数据集(Mix、CS、Legal、Agriculture)和2WikiMultiHopQA、HotpotQA两个多跳问答数据集。

2.查询:使用了UltraDomain提供的基准查询和随机抽样的1000个查询。

3.LLM:对于查询聚焦总结(QFS)任务,使用了DeepSeek-V3作为LLM;对于多跳问答(MHQA)任务,使用了GPT-4o-mini和nvidia/NVEmbed-v2作为LLM和嵌入模型。

4.评估方法:QFS任务的评估使用了四个维度:全面性、赋能性、多样性和总体表现;MHQA任务的评估使用了精确匹配(EM)和F1分数。

结果与分析

1.QFS任务:HiRAG在所有数据集和四个评估维度上均优于现有方法。具体来说,HiRAG在全面性、赋能性、多样性和总体表现上的胜率分别为87.6%、64.1%、65.9%和87.6%。

HiRAG:利用层次知识的检索增强生成下一代GraphRAG-AI.x社区图片

2.MHQA任务:HiRAG在EM和F1分数上也显著优于现有方法。在2WikiMultiHopQA和HotpotQA数据集上,HiRAG的平均EM和F1分数分别为65.5%和73.7%。

3.层次化知识图谱与平面知识图谱的对比:替换为平面知识图谱后,HiRAG的性能显著下降,表明层次化知识图谱在答案生成质量上的重要性。

4.桥梁知识与间隙知识的对比:去除桥梁知识后,HiRAG的性能也显著下降,验证了桥梁知识在连接局部和全局知识中的有效性。

HiRAG:利用层次知识的检索增强生成下一代GraphRAG-AI.x社区图片

总体结论

这篇论文提出了一种新的RAG方法HiRAG,通过有效地利用层次化知识,解决了现有RAG方法中未能充分利用层次知识的问题。HiRAG通过引入层次化知识索引和桥梁机制,显著提升了RAG系统的性能和效率。实验结果表明,HiRAG在多个数据集和任务上均取得了最优的性能。

论文评价

优点与创新

1.提出了一个新的RAG方法,称为HiRAG,利用层次知识增强RAG系统在索引和检索过程中的语义理解和结构捕捉能力。

2.解决了现有RAG系统中存在的两个关键挑战:语义相似实体之间的远距离结构关系和局部知识与全局知识之间的知识差距。

3.引入了无监督的层次化索引机制(HiIndex),通过逐层构建层次化知识图谱来增强语义相似实体之间的连接。

4.提出了新颖的桥梁机制(HiRetrieval),有效地桥接局部实体的描述与全局社区的知识,从而解决知识层差距问题。

5.提供了三级上下文:全局级、桥梁级和局部级知识,使LLM能够生成更全面和精确的响应。

6.广泛的实验验证了HiRAG的有效性和效率,并通过综合消融研究验证了每个组件的贡献。

不足与反思

1.构建高质量层次化知识图谱可能会消耗大量的标记和计算时间,因为LLMs需要在每一层进行实体摘要。尽管如此,由于LLMs的使用成本正在迅速下降,可以考虑并行化索引过程以减少索引时间。

2.检索模块需要更复杂的查询感知排序机制。目前,HiRetrieval模块完全依赖于LLM生成的权重进行关系排序,这可能会影响查询的相关性。未来将研究更有效的排序机制以进一步提高检索质量。

关键问题及回答

问题1:HiRAG方法中的层次化知识索引(HiIndex)是如何构建的?其具体步骤是什么?

1.基本知识图谱的构建:首先,使用实体中心的三元组提取方法构建基本知识图谱。具体步骤包括将输入文档分割成文本块,并使用LLM提取实体和关系。

2.逐层构建层次化知识图谱:对于每一层,首先获取上一层的实体嵌入,并使用高斯混合模型(GMM)进行语义聚类。聚类后,将每个簇的描述输入LLM生成摘要实体。

3.更新知识图谱:通过连接不同层次的实体和关系,更新知识图谱。

4.社区计算和语义报告生成:使用Leiden算法计算层次化知识图谱中的社区,并为每个社区生成一个可解释的语义报告。

问题2:HiRAG方法中的层次化知识检索(HiRetrieval)是如何设计的?其主要功能是什么?

HiRAG方法中的层次化知识检索(HiRetrieval)旨在从层次化知识图谱中检索三级知识:局部知识、全局知识和桥梁知识。其主要功能如下:

1.局部知识检索:检索与查询最相关的n个实体。

2.全局知识检索:找到与检索到的实体相连的社区,并检索这些社区的报告。

3.桥梁知识检索:从每个社区中选择与查询最相关的关键实体,并收集这些实体以形成推理路径,构建子图。

通过这三级知识的检索,HiRAG能够有效地桥接局部和全局知识,生成更全面和精确的回答。

问题3:HiRAG方法在实验中表现如何?与其他方法相比有哪些优势?

1.QFS任务:HiRAG在所有数据集和四个评估维度(全面性、赋能性、多样性和总体表现)上均优于现有方法。具体来说,HiRAG在全面性、赋能性、多样性和总体表现上的胜率分别为87.6%、64.1%、65.9%和87.6%。

2.MHQA任务:HiRAG在EM和F1分数上也显著优于现有方法。在2WikiMultiHopQA和HotpotQA数据集上,HiRAG的平均EM和F1分数分别为65.5%和73.7%。

3.优势分析:

•层次化知识图谱:HiRAG通过引入层次化知识图谱,增强了语义相似实体之间的连接,解决了现有方法中语义相似但结构上不接近的问题。

•桥梁机制:HiRAG通过桥梁知识有效地桥接了局部和全局知识,解决了局部和全局知识之间的知识差距问题。

•综合性能:HiRAG在多个数据集和任务上均取得了最优的性能,显著提升了RAG系统的性能和效率。

本文转载自​知识图谱科技​,作者:Wolfgang

已于2025-9-28 06:53:39修改
收藏
回复
举报
回复
相关推荐