提速30倍，Meta重新定义了新一代RAG！

PaperAgent

发布于 2025-9-11 06:33

浏览

0收藏

LLM时代，RAG已成为知识密集型任务的标准范式。然而，RAG系统在处理长上下文时面临两个核心挑战：

延迟高：Time-to-First-Token（TTFT）随上下文长度呈二次增长；
内存贵：KV缓存随token数线性增长，导致吞吐量下降。

传统方法试图通过稀疏注意力、上下文压缩等手段缓解，而Meta超级智能Lab首次针对RAG的特殊结构进行优化。（Code、Paper链接在文末）

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

RAG的“隐藏结构”：块对角注意力稀疏性

RAG上下文中的检索段落往往：

语义差异大（多样性检索）；
交叉注意力弱（块对角结构）；
大部分token与查询无关。

图7：不同段落间的注意力稀疏性

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

图7：不同检索段落间的注意力值显著低于段落内部，表明交叉注意力稀疏。

REFRAG框架：压缩-感知-扩展三步走

REFRAG提出一种无需修改LLM结构的高效解码框架，核心思想是：

用压缩的段落嵌入代替原始token，只在必要时展开完整上下文。

架构组成

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

图1：REFRAG架构概览

训练策略：课程学习+强化学习双轮驱动

1️⃣ 课程学习（Curriculum Learning）

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

图6：课程学习数据混合比例

重建任务：从chunk embedding还原原始token；
逐步增加难度：从1个chunk到L个chunk；
数据混合策略：早期简单样本多，后期复杂样本多。

2️⃣ 强化学习（RL-based Selective Expansion）

RL策略在所有压缩率下均优于随机/启发式选择策略。

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

奖励函数：负困惑度（-perplexity）；
策略网络：基于chunk embedding选择展开段落；
目标：在压缩率与性能之间找到最优平衡点。

实验：更快、更强、更长

✅ 主实验结果

30× TTFT加速，16×上下文外推

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

短上下文PPL

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

长上下文PPL

✅ RAG任务表现

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

图4：在相同延迟下，REFRAG显著优于LLaMA

图4：在相同延迟预算下，REFRAG通过引入更多上下文，准确率提升1.22%（强检索）与1.93%（弱检索）。

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

消融实验：每一步都很关键

提速30倍，Meta重新定义了新一代RAG！-AI.x社区

https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag

本文转载自PaperAgent

标签

RAG

LLM

弱检索

相关推荐

字节提出新一代数据集COCONut，比COCO粒度分割更密集

轻薄滴假象 • 4917浏览 • 0回复
YOLOv9：深度解析新一代实时目标检测王者

sword_hero • 7274浏览 • 0回复
微软重磅开源 GraphRAG：新一代 RAG 技术来了！

玄姐聊AGI • 7093浏览 • 0回复
新一代的交互形式LUI（language user interface）到来，微软为它架了一座桥

Syrupup • 4258浏览 • 0回复
苹果发布新基准，重新定义大模型强弱！

51CTO技术栈 • 3061浏览 • 0回复
视频生成控制提升几十倍，新一代轻量级ControlNeXt火了，贾佳亚团队正挑战Scaling Law

轻薄滴假象 • 3025浏览 • 0回复
下一代RAG：MemoRAG

PaperAgent • 3770浏览 • 0回复
Zyphra发布Zamba2-7B：新一代高性能小型语言模型

Halo咯咯 • 3349浏览 • 0回复
重新定义AI的可能性！

kede96 • 4683浏览 • 0回复
从 Cursor 看面向聊天编程（CHOP）：如何重新定义开发者与代码的关系

凝固的雨_1 • 3334浏览 • 0回复
为什么多模态AI是下一个风口？深度解读新一代LLM

芝士AI吃鱼 • 5941浏览 • 0回复
Deepseek 671B + Milvus 重新定义知识库搭建！

玄姐聊AGI • 6127浏览 • 0回复
别搞 GraphRAG 了，拥抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI • 3908浏览 • 0回复
五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent?

AI博物院 • 6930浏览 • 0回复
有望重新定义语言生成技术的扩散模型——LLaDA

51CTO内容精选 • 2751浏览 • 0回复
忘掉 Manus 模型上下文协议MCP 正在重新定义智能体的未来

数智飞轮 • 2666浏览 • 0回复
别搞 GraphRAG 了，拥抱新一代 RAG 范式 DeepSearcher

玄姐聊AGI • 2968浏览 • 0回复
Zhipu AI刚刚发布了GLM-4.5系列：重新定义带有混合推理的开源代理AI

Halo咯咯 • 4255浏览 • 0回复
重新定义 RAG 新架构设计，10倍提升长文本处理慢问题

玄姐聊AGI • 260浏览 • 0回复

PaperAgent

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

提速30倍，Meta重新定义了新一代RAG！

RAG的“隐藏结构”：块对角注意力稀疏性

REFRAG框架：压缩-感知-扩展三步走

架构组成

训练策略：课程学习+强化学习双轮驱动

1️⃣ 课程学习（Curriculum Learning）

2️⃣ 强化学习（RL-based Selective Expansion）

实验：更快、更强、更长

✅ 主实验结果

✅ RAG任务表现

消融实验：每一步都很关键

目录