鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG 原创

大模型自然语言处理

发布于 2025-6-5 06:14

浏览

0收藏

给定一个问题Q，基于图的RAG的关键思想是从图中检索相关信息（例如，节点、子图或文本信息），将其与Q一起作为提示，然后输入到LLM中。如下图：

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

因此，现有工作的工作流主要包括两个阶段：

(1) 离线索引：从给定语料库D构建知识图谱G(V,E)，其中每个顶点代表一个实体，每条边表示两个实体之间的关系，并基于知识图谱构建索引。

(2) 在线检索：使用索引从知识图谱中检索相关信息（例如节点、子图或文本信息），并将检索到的信息提供给大型语言模型以提高响应的准确性。

基于KG的RAG代表性的工作有GraphRAG等，如下表总结：

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

基于KG的RAG代表性的工作

传统的GraphRAG影响性能的主要因素归结如下表：

问题	描述
社区质量低	使用Leiden算法检测社区，仅依赖图结构，忽略节点和边的语义信息，导致社区包含不同主题，摘要质量差，影响性能。
兼容性有限	全局搜索和局部搜索策略仅在单一粒度上检索图元素，无法同时处理抽象和具体问题，限制现实世界场景适用性。
生成成本高	在抽象问题上表现良好，但分析大量社区耗时且资源密集。例如，在Multihop-RAG数据集检测到2,984个社区，回答100个问题需约$650和1.06亿个token。
实体识别不准确	HippoRAG等方法在实体识别方面存在问题，5.0%的HotpotQA问题未能检测到实体，15.8%的实体识别质量较低，导致不相关检索结果。
检索过程不准确	基于图的RAG方法在搜索中常返回不相关内容，例如GraphRAG局部搜索时检索结果不准确，导致性能下降。

因此，ArchRAG改进的方向主要可以集中在通过改进社区检测和检索策略来解决这些问题。下面来看看，仅供参考。

ArchRAG方法

同样的，ArchRAG分为两个阶段：离线索引（重点）和在线检索。如下图：

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

ArchRAG框架

离线索引阶段

KG构建：与GraphRAG一样，使用LLM从文本语料库中提取实体和关系，形成子图并合并成一个完整的知识图谱（KG）。
层次化聚类：采用基于LLM的层次化聚类方法，检测出高质量的属性社区。这些社区不仅是节点密集连接的集合，还共享相似的语义主题。算法过程如下（重点看下该算法过程）：

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

基于LLM的层次化聚类方法算法流程

C-HNSW索引构建：构建一个层次化的索引结构，用于高效检索不同层次的ACs和实体。

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

C-HNSW索引构建算法

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

C-HNSW索引构建算法流程

在线检索阶段

层次化搜索：在C-HNSW索引上进行高效的层次化搜索，检索出与查询相关的ACs和实体。

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

层次化搜索算法过程

自适应过滤生成：利用LLM的内在推理能力来提取和分析相关信息，从检索到的信息中提取最相关的部分，生成最终的答案。

实验性能

ArchRAG在特定QA任务上的表现优于现有的图基RAG方法，特别是在准确性方面提高了10%。

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

ArchRAG在令牌使用上比GraphRAG节省了高达250倍，显著提高了查询效率。

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

通过结合KNN或CODICIL与加权Leiden算法，提高了社区检测的质量。

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

回答示例：

改进社区检测和检索策略大幅提升GraphRAG性能新框架-ArchRAG-AI.x社区

参考文献：paper：ArchRAG: Attributed Community-based Hierarchical Retrieval-Augmented Generation [Technical Report]，https://arxiv.org/pdf/2502.09891v2

code：https://github.com/sam234990/ArchRAG

本文转载自大模型自然语言处理作者：余俊晖

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

已于2025-6-5 06:14:18修改

赞

收藏

回复

举报

回复

相关推荐

简单却有效的Agent推理框架：通过预测未来大幅提升智能体的规划能力

zhangyannni • 4918浏览 • 0回复
RAG技术性能提升之文档分块策略方案

AIGC观察者 • 5753浏览 • 0回复
提升RAG系统性能10条策略建议

AIGC观察者 • 3102浏览 • 0回复
RAPTOR 检索树再次进一步提升RAG性能的设计思路

AIGC观察者 • 4534浏览 • 0回复
动手实现GraphRAG，检索效果大幅提升

小虎哦哦 • 3972浏览 • 0回复
文档概要索引，简单提升检索性能的新选择

恰似惊鸿 • 2671浏览 • 0回复
优化文本嵌入，大幅提升RAG检索速度

小虎哦哦 • 4490浏览 • 0回复
Adaptive-RAG：性能提升50%以上的高效RAG策略

大语言模型论文跟踪 • 3067浏览 • 0回复
如何改进RAG模型的性能？

51CTO内容精选 • 2806浏览 • 0回复
从LangChain升级LangGraph，大幅提升智能体性能

小虎哦哦 • 3456浏览 • 0回复
提升人工智能性能的三种关键的LLM压缩策略

51CTO内容精选 • 2491浏览 • 0回复
试试以下RAG优化策略大幅提升问答效果

AI博物院 • 9175浏览 • 0回复
提升RAG性能的全攻略：优化检索增强生成系统的策略大揭秘

Halo咯咯 • 6909浏览 • 0回复
RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝

大模型自然语言处理 • 3074浏览 • 0回复
ChatGPT 的创造力大幅提升，惊艳无比！

丢翅膀的鱼 • 2287浏览 • 0回复
2024‘Meta 推出CTR集成框架 CETNet，多 CTR 模型集成大幅提升预测精度

AIPaperDaily • 2377浏览 • 0回复
DeepSeek开源优化并行策略，提升训练和通信效率

Aceryt • 2699浏览 • 0回复
RAG常见13种分块策略大总结（一览表）

大模型自然语言处理 • 2763浏览 • 0回复
用于实时工业社区问答的RAG新框架-ComRAG

大模型自然语言处理 • 553浏览 • 0回复

大模型自然语言处理

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

多模态视觉语言模型FILA-细粒度分辨率融合策略 14h前发布
八大LLM架构大比较总结：从DeepSeek-V3->qwen3->Kimi K2看LLM架构设计 1天前发布

热门推荐

RAG：7个检索增强生成技术的解析（含实现代码） 0回复

RAG+大模型怎么玩？这八个项目2025年最火！ 0回复

重磅！英伟达宣布H20芯片即将恢复对华销售，并计划推出全新GPU 0回复

2025年多智能体AI爆发，这五个开源框架太香了！ 0回复

文档太长模型“吃不下”？试试这15种Chunking策略，轻松搞定RAG！ 0回复

上一篇：基于KG生成语料增强解决RAG问答幻觉问题的简单框架-Walk&Retrieve

下一篇： GraphRAG优化新思路-开源的ROGRAG框架

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载