
回复
LLM时代,RAG已成为知识密集型任务的标准范式。然而,RAG系统在处理长上下文时面临两个核心挑战:
传统方法试图通过稀疏注意力、上下文压缩等手段缓解,而Meta超级智能Lab首次针对RAG的特殊结构进行优化。(Code、Paper链接在文末)
RAG上下文中的检索段落往往:
图7:不同段落间的注意力稀疏性
图7:不同检索段落间的注意力值显著低于段落内部,表明交叉注意力稀疏。
REFRAG提出一种无需修改LLM结构的高效解码框架,核心思想是:
用压缩的段落嵌入代替原始token,只在必要时展开完整上下文。
图1:REFRAG架构概览
图6:课程学习数据混合比例
RL策略在所有压缩率下均优于随机/启发式选择策略。
30× TTFT加速,16×上下文外推
短上下文PPL
长上下文PPL
图4:在相同延迟下,REFRAG显著优于LLaMA
图4:在相同延迟预算下,REFRAG通过引入更多上下文,准确率提升1.22%(强检索)与1.93%(弱检索)。
https://arxiv.org/pdf/2509.01092
REFRAG: Rethinking RAG based Decoding
https://github.com/facebookresearch/refrag
本文转载自PaperAgent