
算力成本大降!马尔可夫思考机让LLM推理成本直接降为线性
马尔可夫思考者:突破大模型推理长度的计算瓶颈
最近,强化学习(RL)已成为训练推理LLMs的有效方法,使其能够产生长链思考(LongCoT)。然而,这种方法面临着一个严峻的挑战:计算成本随思考长度呈二次方增长。今天,我们介绍一篇来自Mila、微软研究院、麦吉尔大学等机构的研究团队发表的重要论文——《The Markovian Thinker》,他们提出了一种革命性的方法,成功解决了这一难题。
- 论文标题:The Markovian Thinker
- 论文地址:https://arxiv.org/abs/2510.06557v1
- 模型地址:https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
- 代码仓库:https://github.com/McGill-NLP/the-markovian-thinker
研究背景:推理长度的计算困境
当前,强化学习训练推理LLMs的标准"思考环境"中,状态是提示加上所有先前的推理token,这导致状态无界增长。对于基于注意力的策略来说,这意味着随着思考变长,计算成本呈二次方增长。这种计算负担极大地限制了模型进行长链思考的能力。
论文作者指出:"在标准LongCoT RLVR中使用的逐个token生成MDP指定了以下状态S、动作A和转换动力学。在时间t,状态st∈S是提示和到目前为止生成的token的串联:st = x ⊕ y<t = [x1, . . . , xN, y1, . . . , yt−1],其中⊕表示串联。"
图1,展示LongCoT和Delethink环境的对比
为了解决这一问题,研究者们提出了马尔可夫思考(Markovian Thinking)范式,其核心思想是让策略在推进推理时基于恒定大小的状态,从而将思考长度与上下文大小解耦。这一思想的直接后果是:更长的思考只需要线性计算和恒定内存,与思考长度无关。
Delethink:马尔可夫思考的实现
研究者们通过Delethink这一RL环境实现了马尔可夫思考。Delethink将推理组织成一系列固定大小的块。在每个块内,模型像往常一样进行推理;在块边界,环境重置上下文,并使用来自前一个块的简短"携带"(carryover)重新初始化提示。
通过强化学习,策略学会在每个块的末尾编写一个文本状态,这个状态足够在重置后无缝继续推理。这种设计使得模型可以在恒定的上下文大小下进行任意长度的推理。
Delethink的工作原理
Delethink的轨迹生成过程如下:
- 在第一个块中,模型以查询q作为提示,生成最多C个token的响应:y1 ∼ π(·|x1 = q)
- 如果响应y1以[EOS]结束,轨迹完成
- 否则,Delethink通过从原始查询和前一个块输出的最后m个token组成的马尔可夫状态构建下一个提示: xl = q ⊕ y(l−1)[−m :], l ≥ 2
- 给定xl,模型为块l生成最多C−m个新的思考token:yl ∼ π(·|xl)
- 此过程重复,直到生成[EOS]或达到迭代上限I
计算复杂度分析
Delethink的最大优势在于其线性计算复杂度。论文中详细分析了Delethink与LongCoT的计算成本对比:
方法 | 思考Token数 | FLOP | 内存 | 反向时间 | 生成时间 |
基础模型 | n | O(n²) | O(n) | TB | TG |
LongCoT | nS | O(n²S²) | O(nS) | O(TBS²) | O(TGS²) |
马尔可夫思考(Delethink) | nS | O(n²S) | O(n) | O(TBS) | O(TGS) |
论文中进一步解释:"在LongCoT中,KV缓存随着思考长度线性增长,限制了GPU上的并行请求。例如,R1-Distill 1.5B模型上100万token轨迹的KV缓存本身就填满了整个H100。超越这一点需要跨GPU分片序列,增加了大量通信开销。相比之下,Delethink只保留当前块的KV缓存,因此使用量保持恒定。"
图3,展示LongCoT和Delethink的计算成本对比
实验结果:Delethink的卓越表现
研究团队在多个基准测试上验证了Delethink的有效性,结果令人印象深刻。
主要发现
- 性能相当,计算成本大幅降低:尽管在8K块中推理,但通过Delethink训练的R1-Distill 1.5B模型可以思考多达24K token,匹配或超过使用24K预算训练的LongCoT-RL。
- 测试时间扩展能力:在测试时间扩展方面,当LongCoT达到平台期时,Delethink继续改进。例如,在AIME'25上,一些问题只有在推理多达140K思考token后才能解决,尽管模型只训练了24K。
- 计算效率:线性计算的效果是实质性的:研究团队估计,在96K平均思考长度下,LongCoT-RL需要27个H100月,而Delethink只需要7个。
图2,Delethink与LongCoT在训练曲线、测试时间扩展和训练成本方面的对比
详细实验结果
研究团队在多个数学基准测试上评估了Delethink,包括AIME'24、AIME'25和HMMT'25,以及作为分布外(OOD)测试的GPQA Diamond和LiveCodeBench。
在数学任务上,Delethink 24K在AIME'24、AIME'25和HMMT'25上都取得了比LongCoT-RL 24K更高的分数。LongCoT-RL 8K则持续表现不佳,强调了扩展推理的必要性。
在OOD任务上,虽然绝对收益较为温和,但Delethink仍然匹配或略微超过LongCoT-RL 24K。
图4,Delethink与LongCoT在不同任务上的性能对比
上下文大小消融实验
研究团队还对Delethink的上下文大小C进行了消融实验,将其从8K减少到4K和2K,同时调整迭代次数以保持最大思考长度为24K token。结果显示:
- 4K变体略逊于8K
- 2K变体从低得多的初始化点开始
- 尽管在整个过程中准确性低于8K和4K,但2K变体仍然超越了基础模型性能,表明Delethink即使在最小的上下文大小下也能工作
图6: 不同上下文大小的Delethink性能对比
扩展到96K思考长度
研究团队还将思考预算从24K扩展到96K token,这得益于Delethink RL训练的线性计算成本。具体来说,他们保持思考上下文为C=8K,并将迭代上限从I=5增加到I=23,产生96K的总预算。
尽管训练时间表很短,但Delethink 96K不仅超越了Delethink 24K检查点的基础性能,还匹配或超过了使用128K token预算评估的测试时间扩展的Delethink 24K。此外,模型的平均思考长度达到36K(AIME'24)和42K(AIME'25)token,表明有效利用了更大的预算。
图8,Delethink 96K的性能和平均轨迹长度
为什么Delethink有效?
为了探究Delethink为何有效,研究团队分析了RL初始化时的模型。他们观察到,R1-Distill系列(1.5B-14B)在没有任何额外训练或提示的情况下,已经能够零样本生成马尔可夫轨迹,甚至恢复了大部分标准LongCoT性能。
这种强初始化(许多所需行为的正面、同分布样本)为RL提供了一个有利的起点。研究团队进一步研究了Delethink环境中高达120B参数的推理模型。例如,GPT-OSS 120B在博士级问题、编码任务、数学竞赛和填字游戏等任务中表现出稳健的马尔可夫思考能力。
图9,R1-Distill在初始化时的Delethink轨迹性能
现有SOTA模型的马尔可夫思考能力
研究团队还评估了两个最先进的开源推理LLMs——GPT-OSS 120B和Qwen3 30B-A3B Thinking在Delethink下的表现。他们发现:
- 16K上下文是一个可靠的默认值,可以恢复大部分原始性能
- 8K实现了合理的分数,适合计算紧张的情况
- 两种模型在LongCoT和Delethink Tracing下都通过更多推理获得了更高的分数
- Delethink Tracing在C=16K时在Qwen3上匹配或超过LongCoT,在GPT-OSS上几乎匹配
图10,GPT-OSS 120B和Qwen3 30B-A3B在Delethink下的表现
压力测试Delethink Tracing
为了找到Delethink不是从强初始化开始的任务,研究团队评估了CrossWordBench,这是一个包含不同难度级别填字游戏的任务。在这个任务中,推理需要维护一个实时网格和填充条目——这种状态可能超过m的容量。
结果显示,Delethink Tracing在7×7谜题上实现了与LongCoT大致相当的性能。在更具挑战性的14×14谜题上,性能相对于LongCoT有所下降,尽管两种模型继续产生大量有效的马尔可夫轨迹。这表明即使在设计用来压力测试Delethink的设置中,它也保留了有意义的概率覆盖,并 readily 发现马尔可夫解决方案。
图11,Delethink与LongCoT在问题解决重叠和CrossWordBench上的对比
结论与意义
马尔可夫思考的成功表明,将思考长度与上下文大小解耦原则上可以让下一代推理模型思考数百万个token。它突显了RL环境(通常被视为固定)作为进步的强大杠杆。它还表明,非二次序列架构(如线性注意力)可能特别有利于推理模型,因为思考可以有效地变得马尔可夫。
研究团队总结道:"我们引入了马尔可夫思考范式,它限制了策略的输入状态,并产生与思考长度成线性计算和恒定内存的关系。我们提出了一个简单的实例化Delethink,它训练现成的推理LLMs成为原生马尔可夫思考者,经验上匹配并超越了LongCoT-RL训练。"
这项研究的意义不仅在于提高了计算效率,更在于它重新定义了推理环境的设计思路。通过重新思考RL环境本身,而非仅仅优化现有框架,研究团队为未来更高效、可扩展的推理LLMs开辟了新路径。
随着大模型应用的不断深入,长链推理能力将成为衡量模型智能水平的重要指标。而Delethink的出现,无疑为我们提供了一个在有限计算资源下实现这一目标的有力工具。我们期待看到这一方法在更多领域和更大规模模型上的应用与突破。
本文转载自AIGC深一度,作者:一度
