别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher 原创

发布于 2025-3-12 14:20
浏览
0收藏

刚在朋友圈兴奋庆祝《哪吒2》荣登全球IMAX票房历史前八,喜悦之情还未平复;

午后,老板便发话:“小王,你这么有见解,用 DeepSeek 做个《上古神话中龙族形象在流行文化中的变迁》分析吧,下班前交给我……”

别忘了,还得融合孙悟空和哪吒的魅力点,借鉴《山海经》到《哪吒》的成功策略,结合古典文学理论与现代精神分析,打造出我们独有的用户体验(此处省略800字)

老板的要求如同烟花般绚烂

然而,在时间转换器从哈利波特的世界变为现实之前,我们这些打工族的办公时间依然是有限的。

采用传统的 RAG 方法应付差事?它只能帮你解决信息检索的问题

尝试 GraphRAG?老板还期望能结合知识图谱与大模型生成的新高度

不得不说,近期  Open AI 推出的 Deep Research(深度研究)功能,确实能在短时间内满足老板的高要求。

通过融合大模型、超级搜索与研究助手于一体的 Deep Research,

能够帮助金融机构快速生成报告,科研人员快速撰写综述。该服务一经推出,便在全球范围内广受欢迎。

但 Deep Research 的底层模型绑定在 OpenAI 上,且无法利用本地数据。

这项工作看似闭环,实则仍有缺口。

基于这一理念,向量数据库公司 Zilliz 推出了开源项目 DeepSearcher,目前在Github上已获得 3.8+ star 的关注。

DeepSearcher 不仅继承了 Deep Research 的优点,用户还可以自由选择底层大模型,并通过Milvus接入本地数据,更适合企业级应用场景。

体验链接:https://github.com/zilliztech/deep-searcher

本文将围绕 DeepSearcher 的技术分析、与传统 RAG 的对比,以及实际操作展示三个方面,为大家带来深入解读。

1、RAG 技术演进:从基础到增强

第一、我们为何需要 RAG?

RAG(检索增强生成)技术,通过融合实时搜索与大模型的能力,有效解决了传统生成技术的以下难题:

(1) 知识更新的时效性问题

大型模型如 GPT-4 的训练数据有时间限制(仅更新至2023年),而 RAG 能够实时检索最新文档(如科研论文或新闻),从而动态扩展模型的知识库。

(2) 事实准确性的挑战

纯生成模型容易产生错误信息(即“幻觉”),RAG 则先进行相关证据文档的检索,确保模型基于检索结果生成内容,大幅降低错误率。

(3) 领域适配的成本问题

传统的微调(Fine-tuning)需要大量标注数据和计算资源,而 RAG 只需构建领域文档库,就能让通用模型生成专业领域的内容(如法律、医疗)。

第二、传统 RAG、Graph RAG、DeepSearcher 的区别解析

设想你在图书馆查找资料的情景:

传统 RAG - 类似于图书馆找书

就像在图书馆根据书名和简介找书一样,传统 RAG 会将文档内容“向量化”,为每段文字打上特征标签。当你提问时,它就像图书管理员,根据标签快速匹配相关内容。例如,询问“哪吒的性格特点”,它会找到描述哪吒性格的段落。其优点是直接明了,但可能遗漏深层次的关联信息。

GraphRAG - 类似于查阅族谱

GraphRAG 更像是探索一个互动式的族谱,将人物、事件、关系构建成一张大网。每个人物是一个节点,关系则是连线。询问“哪吒和敖丙的关系”,它能通过关系网络找到答案,并揭示意想不到的关联,如他们的共同朋友或敌人。

DeepSearcher - 类似于 RPG 游戏的角色面板

DeepSearcher 像是 RPG 游戏中的人物属性面板,将信息分层组织,如主线任务和支线任务。询问“哪吒在剧中的重要关系”,它会先展示核心关系,然后逐层深入到具体情节和细节,使得信息层次清晰,易于理解。

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

第三、RAG 技术架构对比

(1)传统 RAG 架构

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(2)GraphRAG 架构

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(3)DeepSearcher 架构

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

第四、RAG 数据组织方式对比

RAG:采用扁平化的向量空间,使信息关系直观可见。

GraphRAG:利用图结构存储,适合表示复杂且相互关联的数据。

DeepSearcher:通过树形层次结构组织数据,便于像浏览文件夹一样高效查找信息。

第五、RAG 检索机制对比

RAG(检索增强生成):通过比较文本向量相似度来检索相关信息。

GraphRAG:结合图结构的数据遍历和路径查询,精确定位信息。

DeepSearcher:采用多层次并行搜索加智能过滤,从大量数据中快速准确提取所需信息。

第六、RAG 结果生成对比

RAG:直接基于相关文本内容生成答案。

GraphRAG:利用子图中的结构化信息生成答案。

DeepSearcher:结合多层信息,深入挖掘信息及其关系,生成全面准确的答案。希望这样的改写能帮助大家更好地理解这些检索机制的特点。

2、三种 RAG 设计模式试验效果

第一、经典 RAG 实施流程

(1)搭建技术框架

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(2)操作步骤

在 Dify 平台上配置 deepseek-r1 模型。

构建《哪吒2》的专题知识库。

设立聊天助手,将其与知识库和模型关联。

进行问答测试,以观察实际效果。

(3)测试数据集

哪吒,一位天生的叛逆少年英雄,掌握雷电之力,隶属于阐教。

他的父亲是李靖(陈塘关总兵),母亲是殷夫人。

他的导师是太乙真人,同为阐教门下。

敖丙,东海龙王的三太子,拥有冰雪之力,属于龙族。

(4)测试问答示例

哪吒的父母是谁?

(5)问答效果展示

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

第二、GraphRAG 的实施流程

(1)技术栈准备

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(2)实施步骤

利用 DeepSeek 生成测试数据集。

安装 NebulaGraph 并导入测试数据。

在 Dify 平台上创建工作流应用。

配置 Nebula API 调用等参数。

编排工作流节点。

进行测试,验证问答效果。

(3)在 Nebula 中插入数据的步骤

创建图空间:

CREATE SPACE IF NOT EXISTS nezha2(partition_num=1, replica_factor=1, vid_type=fixed_string(128));

(4)使用图空间

USE nezha2;

(5)创建角色标签

CREATE TAG role (
    name string,           // 角色名
    meteorological string, // 气象属性
    faction string,        // 所属阵营
    role_desc string,      // 角色描述
    voice_actor string     // 配音演员
);

(6)创建各种关系边

CREATE EDGE father_of (edge_time timestamp);    // 父子关系
CREATE EDGE mother_of (edge_time timestamp);    // 母子关系
CREATE EDGE teacher_of (edge_time timestamp);   // 师徒关系
CREATE EDGE enemy_of (edge_time timestamp);     // 敌对关系
CREATE EDGE friend_of (edge_time timestamp);    // 朋友关系
CREATE EDGE lover_of (edge_time timestamp);     // 恋人关系
CREATE EDGE brother_sister_of (edge_time timestamp); // 兄妹关系

(7)插入角色节点

INSERT VERTEX role (name, meteorological, faction, role_desc, voice_actor) VALUES 
"哪吒": ("哪吒", "雷电", "阐教", "天生反骨的少年英雄", "吕艳婷"),
"敖丙": ("敖丙", "冰雪", "龙族", "东海三太子,哪吒的挚友", "瀚墨"),
// ... 其他角色
;

(8)插入各种关系

// 家庭关系
INSERT EDGE father_of VALUES "李靖" -> "哪吒": (NOW());
INSERT EDGE mother_of VALUES "殷夫人" -> "哪吒": (NOW());
// ... 其他关系

(9)测试效果

使用 NebulaGraph Studio 进行测试。

测试语句示例:

// (查询哪吒相关的所有关系)
MATCH (v1:role)-[e]->(v2:role) 
RETURN e LIMIT 10;

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

// 多跳关系查询

MATCH p=()-[*1..2]->()
RETURN p LIMIT 5;

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

第三、DeepSearcher 的实施与演示

DeepSearcher 的核心优势在于其分层语义理解能力(涉及文档结构、段落、句子、关键词的多级解析),而 Dify 平台的父子检索功能则是对索引结构进行了优化(通过将文档拆分为父子块来建立层级索引)。

本次演示将重点展示如何利用父子检索功能来实现 DeepSearcher 的层级索引特性。

(1)技术栈准备

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(2)实施步骤

准备分层的知识文档。

配置父子检索参数。

在对话系统中选择 DeepSeek-R1模型。

使用 LLM 处理检索结果。

进行测试,验证问答效果。

(3)测试数据集

# 角色基本信息
## 哪吒
- 名称: 哪吒
- 属性: 雷电
- 阵营: 阐教
- 描述: 天生反骨的少年英雄,拥有超凡的力量和勇气
- 配音: 吕艳婷
- 性格特点: 叛逆不羁,重情重义,敢于挑战命运
### 哪吒的关系网络
- 父亲: 李靖(陈塘关总兵,严厉正直)
- 母亲: 殷夫人(温柔慈爱,理解包容)
- 师父: 太乙真人(循循善诱,关爱弟子)
- 挚友: 敖丙(东海三太子,冰雪之力)
- 敌人: 申公豹(截教弟子,处处作梗)
### 哪吒的剧情发展
- 初遇敖丙: 在东海边缘的相遇,两个不同世界的少年
- 修行历程: 在太乙真人门下学习法术,逐渐掌握雷电之力
- 友情萌芽: 与敖丙从互不理解到成为挚友
- 身份困扰: 面对阐教弟子和凡人双重身份的矛盾
- 成长蜕变: 在各种挑战中突破自我,寻找真我
### 哪吒的能力特点
- 主要法术: 雷电操控,混天绫,乾坤圈
- 战斗风格: 灵活多变,攻击凌厉
- 特殊天赋: 天生具有超凡力量
- 成长轨迹: 从初学者到掌握强大法力
## 敖丙
- 名称: 敖丙
- 属性: 冰雪
- 阵营: 龙族
- 描述: 东海三太子,温润如玉的贵族少年
- 配音: 瀚墨
- 性格特点: 温和有礼,重情重义,内心坚韧
### 敖丙的关系网络
- 父亲: 敖光(东海龙王,威严庄重)
- 兄弟姐妹: 
  - 敖闰(龙女,擅长空间法术)
  - 敖顺(二皇子,精通毒术)
  - 敖钦(大皇子,掌控火焰)
- 挚友: 哪吒(阐教弟子,雷电之力)
- 属下: 结界兽(守护东海结界)
### 敖丙的剧情发展
- 身份困扰: 作为龙族继承人的责任与压力
- 友情抉择: 在族群立场与个人情谊间的挣扎
- 能力觉醒: 冰雪之力的不断提升与掌控
- 性格成长: 从谨慎拘谨到开朗自信
- 守护之道: 保护东海与亲友的决心
### 敖丙的能力特点
- 主要法术: 冰雪操控,水系法术
- 战斗风格: 优雅从容,防守反击
- 特殊天赋: 天生亲和水元素
- 成长轨迹: 从单纯的王子到独当一面
## 太乙真人
- 名称: 太乙真人
- 属性: 云雾
- 阵营: 阐教
- 描述: 阐教重要弟子,哪吒的师父
- 配音: 张珈铭
- 性格特点: 智慧通达,慈悲为怀
### 太乙真人的关系网络
- 弟子: 哪吒(得意门生)
- 同门: 其他阐教仙人
- 对手: 申公豹(截教弟子)
### 太乙真人的剧情参与
- 收徒教导: 发现哪吒天赋,悉心培养
- 化解危机: 多次调解哪吒与各方矛盾
- 守护正道: 对抗截教势力的渗透
# 阵营势力分析
## 阐教
- 代表人物: 太乙真人、哪吒
- 特点: 崇尚正统,重视秩序
- 立场: 维护天地秩序,抵制混乱
- 修行特色: 注重心性修养,讲究循序渐进
### 阐教的理念
- 修行观: 重视内在修养
- 处世态度: 主动干预,匡扶正义
- 对待人间: 既重视规则,也关注个体
## 龙族
- 代表人物: 敖光、敖丙
- 特点: 高贵优雅,重视传统
- 立场: 守护东海,维护龙族利益
- 统治方式: 等级分明,讲究礼制
### 龙族的传统
- 治理理念: 重视血脉传承
- 对外态度: 谨慎自守,避免冲突
- 内部规则: 等级森严,重视礼法
## 截教
- 代表人物: 申公豹
- 特点: 包容驳杂,手段灵活
- 立场: 追求变革,不拘一格
- 行事风格: 灵活多变,善用权谋
### 截教的特点
- 修行方式: 讲究实用
- 处世态度: 积极进取,不拘形式
- 发展策略: 广收门徒,扩张势力
# 重要事件与剧情发展
## 东海危机
### 事件起因
- 结界异常
- 势力冲突
- 个人恩怨
### 事件发展
- 哪吒与敖丙的相遇
- 各方势力的介入
- 矛盾的激化与升级
### 事件影响
- 个人成长
- 势力变化
- 关系转变
## 人物关系演变
### 友情的考验
- 立场差异
- 信任建立
- 共同成长
### 师徒情谊
- 教导方式
- 互相理解
- 成长蜕变

(4)新建知识库并开启父子模式

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

(5)测试效果

测试单层信息获取

"哪吒的基本属性是什么?"

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

测试关系信息理解

"哪吒和敖丙是什么关系?他们的性格有什么不同?"

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

测试跨层级推理

"阐教和龙族的矛盾体现在哪些方面?对哪吒和敖丙的友情有什么影响?"

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区


3、不同 RAG 模式维度对比

别搞 GraphRAG 了,拥抱新一代 RAG 范式 DeepSearcher-AI.x社区

4、写在最后

第一、DeepSearcher 的创新理念

DeepSearcher 的领先之处在于它打破了传统搜索的检索与生成分离模式,深度融合了深度学习技术,全面优化了搜索流程。其主要优势体现在:

智能检索:利用语言模型参与搜索过程,如生成潜在查询或对结果进行排序,从而提高搜索的相关性。例如,对于“如何挑选适合我的手机?”这样的问题,DeepSearcher 能够根据用户的历史数据生成更为精确的搜索条件。

高度适应性:通过反馈机制(如强化学习)对搜索进行优化,根据用户行为持续调整。若用户对搜索结果不满,系统将学习并改进搜索策略。多模态兼容性:支持文本、图像、视频等多元化数据类型,满足现代应用的多样化需求,例如搜索“红色跑车的图片及相关新闻”。

个性化搜索:深度学习模型能够根据用户的个人喜好定制搜索结果,相较于 RAG 和 GraphRAG 的固定检索方式更加灵活。值得注意的是,DeepSearcher 的搜索过程更接近人类思维,能够理解上下文和用户意图,但这同时也带来了效率和可解释性方面的挑战。

第二、实施 DeepSearcher 需要克服的挑战

集成难度:要将语言模型与搜索索引紧密融合,需要构建高效的系统架构。例如,如何在保持性能的同时,有效地将语言模型融入检索过程?

实时数据更新:在处理实时数据更新(如股市动态)时,确保模型能够及时适应,技术实现上存在一定难度。系统复杂性:DeepSearcher 可能包含多个组件(如检索、生成、学习模块),这增加了系统的维护和故障排查难度。

RAG 和 GraphRAG 作为成熟的搜索范式,分别适用于文档检索和关系查询,而 DeepSearcher 则代表了搜索技术的未来趋势,通过深度学习提升搜索效率,满足复杂和个性化的搜索需求。尽管其潜力巨大,但如何提高效率、确保可解释性以及满足数据需求仍是待解的问题。在实现过程中,需要特别关注集成的复杂性和实时性,以确保系统在实际应用中的稳定表现。


本文转载自公众号玄姐聊AGI  作者:玄姐

原文链接:​​https://mp.weixin.qq.com/s/ZUgx9ySEez3JjIURTFOh0A​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐