REFRAG:基于块压缩的RAG解码优化

发布于 2025-9-12 07:23
浏览
0收藏

Meta发布的REFRAG(REFRAG: Rethinking RAG based Decoding)在解码时将大部分检索到的token替换为预计算的块嵌入,然后选择性地只扩展少数重要的块。这利用了RAG提示中的块对角注意力模式来减少延迟和内存,同时在RAG、多轮对话和长文档摘要中保持准确性。这是一种用于RAG系统的即插即用解码策略,能够大幅降低延迟和内存使用。REFRAG实现了高达30.85倍的TTFT(首字符生成时间)加速。

REFRAG:基于块压缩的RAG解码优化-AI.x社区图片

核心思想 

将检索到的上下文分块,用轻量级编码器对每个块进行编码,投影到解码器的嵌入尺寸,并将嵌入直接与用户查询一起输入。一个轻量级强化学习策略决定哪些块应该保持压缩状态,哪些需要扩展回完整文本。可以把它想象成只在必要的地方放大。

底层工作原理 

注意力图显示检索到的段落很少相互交互(块对角模式)。因此REFRAG避免在无关文本上浪费注意力,只为重要的块付出完整代价。

REFRAG:基于块压缩的RAG解码优化-AI.x社区图片

提速不降智 

基准测试显示,与vanilla LLaMA相比,首字符生成时间提速高达30倍,吞吐量提高6-7倍。即使与CEPE等强基线相比,REFRAG仍然快3-4倍,且准确性相等或更好。

REFRAG:基于块压缩的RAG解码优化-AI.x社区图片

免费获得更长内存 

通过压缩大部分块,REFRAG有效地将模型上下文长度扩展至16倍更多token,让它能够处理更多检索段落而不破坏延迟预算。

REFRAG:基于块压缩的RAG解码优化-AI.x社区图片

更好地利用检索预算 

在相同延迟下,REFRAG能够处理比基线模型更多的段落,并在16个RAG任务中表现更优,特别是当检索器较弱时(结果混乱或有噪音)。除了RAG之外,它还提升多轮对话(保留更多历史而不截断)和长文档摘要(在固定计算下获得更高的ROUGE分数)。

本文转载自​AI帝国​,作者:无影寺

已于2025-9-12 10:46:16修改
收藏
回复
举报
回复
相关推荐