循环LLM的突破：基于块的推理如何解决记忆溢出问题

发布于 2025-6-20 07:11

浏览

0收藏

近年来，大语言模型(LLM)领域出现了一个引人注目的发展趋势：研究人员开始转向具有亚二次复杂度的循环模型架构，如Mamba、RWKV和RecurrentGemma等。这些模型在处理长上下文时展现出显著的效率优势，相比传统Transformer架构的二次方复杂度，它们能够以更低的计算成本处理更长的序列。然而，这些循环模型存在一个关键的局限性：固定大小的循环记忆容量。

来自特拉维夫大学、IBM研究院和MIT CSAIL的研究团队在最新论文《溢出预防增强了长上下文循环LLM》中，深入探讨了这一问题，并提出了一种简单而有效的解决方案，显著提升了循环LLM在长上下文任务中的表现。该研究不仅解决了实际问题，还对循环模型如何处理长距离依赖关系提出了深刻的理论思考。

循环LLM的突破：基于块的推理如何解决记忆溢出问题-AI.x社区

记忆溢出问题：循环模型的隐藏瓶颈

研究团队首先通过联想回忆(Associative Recall)任务揭示了循环LLM的记忆溢出现象。在这项任务中，模型需要从上下文中检索特定的键值对。实验结果显示，即使是拥有较大隐藏状态的模型(如Falcon-Mamba-Inst-7B，具有4096个通道，每个通道状态大小为16)，当上下文中的信息量增加时，其检索准确率会显著下降。

这一现象表明，循环模型的记忆容量是有限的，当输入信息超过其容量时，模型会出现"溢出"，导致性能急剧下降。更令人担忧的是，这种溢出现象在相对较短的上下文(仅1200个标记)中就已经出现，这对于长上下文应用场景构成了严峻挑战。

为了进一步验证这一发现，研究人员在受控环境中训练了多个2层Mamba模型，测试不同通道维度和状态维度组合对记忆容量的影响。结果表明，虽然增加隐藏状态大小可以缓解溢出问题，但无法完全解决它。即使是经过专门训练以检索128个事实的模型，其实际容量仍然有限，无法充分利用所有训练数据。

循环LLM的突破：基于块的推理如何解决记忆溢出问题-AI.x社区

OPRM：一种简单而有效的解决方案

基于对记忆溢出问题的深入理解，研究团队提出了OPRM(Overflow Prevention for Recurrent Models)方法。这种方法的核心思想非常简单：将长上下文分割成多个小块，确保每个块的信息量不超过模型的记忆容量限制，然后只处理最相关的块来生成答案。

OPRM的工作流程分为两个阶段：

推测性预填充(Speculative Prefill)：将上下文C分割成b个相同长度L的块，并为每个块构建单独的提示，保持原始结构：Xi=[P,Ci,S]，其中P是前缀，S是包含查询Q的后缀。这些提示被并行处理，为每个块计算输出分布。
选择性解码(Selective Decoding)：基于选择标准(如熵或概率)，从最具信息量的提示Xj中选择状态Hj和标记Aj,0，然后执行自回归解码。

循环LLM的突破：基于块的推理如何解决记忆溢出问题-AI.x社区

为了处理某些块可能不包含相关信息的情况，研究者还引入了"IDK过滤器"(I Don't Know Filter)。该过滤器会丢弃那些预测"Error"标记的块，确保模型只从包含有用信息的块中生成回答。

实验结果：简单方法带来惊人提升

研究团队在多个基准测试上评估了OPRM方法，结果令人印象深刻：

联想回忆任务：使用OPRM后，Falcon-Mamba-Instruct-7B的准确率不再随上下文中信息量的增加而下降，实际上解决了这一任务。
LongBench基准：OPRM显著提升了多个循环LLM的性能，包括Falcon3-Mamba-Inst-7B(提升14%)、Falcon-Mamba-Inst-7B(提升28%)、RecurrentGemma-IT-9B(提升50%)和RWKV6-Finch-7B(提升51%)。随着上下文长度增加，OPRM的优势变得更加明显。
LongBench v2基准：在这个更具挑战性的基准测试中，Falcon3-Mamba-Inst-7B配合OPRM达到了30.8分的成绩，为同等规模模型设立了新的最高水平，甚至超过了同等大小的Transformer模型。
上下文扩展：OPRM还能自然地扩展模型的可用上下文长度，无需额外训练。在文档检索任务中，OPRM使Mamba-130M模型能够处理比训练时长256倍的序列。

这些结果表明，OPRM不仅能有效缓解记忆溢出问题，还能显著提升循环LLM在各种长上下文任务中的表现。