提速30倍,Meta重新定义了新一代RAG!

发布于 2025-9-11 06:33
浏览
0收藏

LLM时代,RAG已成为知识密集型任务的标准范式。然而,RAG系统在处理长上下文时面临两个核心挑战:

  • 延迟高:Time-to-First-Token(TTFT)随上下文长度呈二次增长;
  • 内存贵:KV缓存随token数线性增长,导致吞吐量下降。

传统方法试图通过稀疏注意力上下文压缩等手段缓解,而Meta超级智能Lab首次针对RAG的特殊结构进行优化。(Code、Paper链接在文末)

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

RAG的“隐藏结构”:块对角注意力稀疏性

RAG上下文中的检索段落往往:

  • 语义差异大(多样性检索);
  • 交叉注意力弱(块对角结构);
  • 大部分token与查询无关

图7:不同段落间的注意力稀疏性

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

图7:不同检索段落间的注意力值显著低于段落内部,表明交叉注意力稀疏

REFRAG框架:压缩-感知-扩展三步走

REFRAG提出一种无需修改LLM结构的高效解码框架,核心思想是:

用压缩的段落嵌入代替原始token,只在必要时展开完整上下文。

架构组成

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

图1:REFRAG架构概览

训练策略:课程学习+强化学习双轮驱动

1️⃣ 课程学习(Curriculum Learning)

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

图6:课程学习数据混合比例

  • 重建任务:从chunk embedding还原原始token;
  • 逐步增加难度:从1个chunk到L个chunk;
  • 数据混合策略:早期简单样本多,后期复杂样本多。

2️⃣ 强化学习(RL-based Selective Expansion)

RL策略在所有压缩率下均优于随机/启发式选择策略。

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

  • 奖励函数:负困惑度(-perplexity);
  • 策略网络:基于chunk embedding选择展开段落;
  • 目标:在压缩率与性能之间找到最优平衡点。

实验:更快、更强、更长

✅ 主实验结果

30× TTFT加速,16×上下文外推

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

短上下文PPL

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

长上下文PPL

✅ RAG任务表现

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

图4:在相同延迟下,REFRAG显著优于LLaMA

图4:在相同延迟预算下,REFRAG通过引入更多上下文,准确率提升1.22%(强检索)与1.93%(弱检索)

提速30倍,Meta重新定义了新一代RAG!-AI.x社区

消融实验:每一步都很关键


提速30倍,Meta重新定义了新一代RAG!-AI.x社区

https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag

本文转载自​PaperAgent

收藏
回复
举报
回复
相关推荐