百度 TURA 三阶段架构:让 AI 检索 “动” 起来

发布于 2025-8-12 06:23
浏览
0收藏

1. 为什么传统 RAG 不够用了?

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

图 1 传统 RAG 只能返回静态网页,而 TURA 可以实时调用携程 API 查询机票

  • 痛点:现有检索增强生成(RAG)系统只能读取已索引的静态网页,无法回答“下周从北京到上海的最低票价是多少”这类需要实时数据的问题。
  • 需求:用户希望一次对话就能完成查票、订酒店、看天气、规划路线等多件事。

2. TURA 登场:三阶段“工具人”架构

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

图 2 TURA 三阶段框架总览:检索 → 规划 → 执行*

TURA(Tool-Augmented Unified Retrieval Agent)用工具调用把 RAG 从“静态阅读”升级为“动态交互”。核心分为三步:

阶段

关键模块

一句话总结

① 检索

Intent-Aware MCP Server Retrieval

把用户一句话拆成多个“小意图”,再从上千个工具里秒选最相关的几个。

② 规划

DAG-based Task Planner

把小意图画成有向无环图(DAG),让能并行的步骤一起跑,省时间。

③ 执行

Distilled Agent Executor

用“小模型”蒸馏“大模型”的推理能力,既快又准地调用工具拿结果。

3. 深度拆解:每个阶段的黑科技

3.1 意图感知检索:如何 1 秒锁定 5 个最相关工具?

  • 查询分解:LLM 先把“去北京玩 5 天”拆成["查北京天气", "找 5 个景点", "订酒店", "规划路线"]
  • 语义增强索引:为每个工具离线生成 20 条“用户可能问法”,解决“用户口语 vs API 文档”的 Gap。
  • 向量召回:用 ERNIE 做多向量 MaxSim 检索,Recall@5 达到 0.8289(表 4)。

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

表 4 检索模块消融实验:缺了分解或索引增强都会掉分

3.2 DAG 任务规划:并行神器

  • 复杂查询不再是线性流水,而是并行图。例:订酒店 & 查天气互不依赖,可以同时跑;路线规划需等前两者完成后才启动,节省 44% 延迟(表 6)。

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

表 6 DAG vs 串行:成功率相当,延迟从 1650 ms → 920 ms

3.3 蒸馏执行器:小模型也能打大模型

  • 老师:DeepSeek-V3(671B)
  • 学生:Qwen3-4B 蒸馏版
  • 结果:

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

表 7 工具调用准确率:学生 88.3 % > 老师 82.4 %,延迟 750 ms

秘诀:训练时保留思维链,推理时直接出动作,既省 token 又保智商。

4. 实战成绩:线上 A/B Test

  • 样本:百度真实流量 10^3 量级用户
  • 指标:

Session Success Rate(SSR):55.1 % → **64.0 %**(+8.9 %)

人工评分:TURA 在 13 % 场景“明显更好”,仅 4 % 出现新问题(表 2)。

百度 TURA 三阶段架构:让 AI 检索 “动” 起来-AI.x社区

表 2 线上 A/B 结果

TURA 用“检索 + 规划 + 工具调用”的三板斧,把只能查资料的 RAG 变成能订票、能规划、能交互的 AI 搜索体,已在百度亿级流量场景跑通,为下一代对话式搜索树立了新范式。

https://arxiv.org/pdf/2508.04604
TURA: Tool-Augmented Unified Retrieval Agent for AI Search

本文转载自​​​CourseAI​​​,作者:CourseAI

收藏
回复
举报
回复
相关推荐