
五倍推理加速,激发自回归潜能,苹果多token预测技术如何让大模型"预知"未来
论文标题:Your LLM Knows the Future: Uncovering Its Multi-Token Prediction Potential论文链接:https://www.alphaxiv.org/abs/2507.11851
大型语言模型(LLM)自诞生以来,一直遵循着严格的自回归生成模式——每次只能生成一个token,然后将这个token作为上下文继续生成下一个。这种模式虽然保证了生成文本的连贯性,却也成为了制约推理速度的瓶颈。在2025年7月发布的论文《Your LLM Knows the Future》中,苹果研究团队提出了一种革命性的方法,通过在输入末尾插入mask token并进行门控LoRA微调,使预训练的自回归LLM能够在单步推理中预测多个token,从而实现高达5.35倍的推理加速,同时保持与标准自回归生成相当的文本质量。这一突破不仅为大模型推理优化开辟了新路径,也为轻量设备上流畅运行强大实时助手提供了可能。
一、多token预测:打破自回归生成的效率瓶颈
传统LLM的自回归生成模式本质上是顺序执行的,每一步解码都需要完整运行一次模型。这种模式虽然简单有效,却带来了显著的计算开销。想象一下,当大模型生成一段数百token的文本时,它需要重复执行数百次前向传播,每次仅生成一个token。这种"一token一世界"的生成方式,使得生成速度与token数量成线性关系,无法实现真正的并行计算,严重制约了LLM在实时交互场景中的应用。
苹果研究团队在论文中首先探讨了一个基本问题:语言模型能否在单个推理步骤中生成多个token?令人鼓舞的是,答案是肯定的。他们观察到,自回归模型虽然并未明确针对未来token进行训练,但实际上已经在一定程度上编码了关于未来token的信息。例如,给定提示词"what is two plus two?",一个预训练模型在标准自回归解码过程中通常会生成"two plus two equals four"。为了检验模型是否具备对未来token的感知能力,研究者在提示后添加占位token(↔表示),并分析输出的logits。结果发现,未来token的正确序列出现在前200个logits中,这表明模型在某种程度上隐含地掌握了即将生成的token信息 。
图 1:自回归模型能够隐式预判未来的 token。
基于这一发现,研究者提出了一个更深层次的问题:是否可以在尽可能少改动的前提下,适配现有的自回归训练与推理框架,实现在保留自回归模型核心优势的同时,实现高效的多token生成?这一问题的解决,将彻底改变LLM的推理效率。
二、核心技术:mask token添加、门控LoRA微调与轻量级采样模块
苹果论文的核心创新在于设计了一套轻量级、高效的多token预测框架,主要包含三个关键技术:
1. Mask Token添加:引导模型预判未来
传统自回归生成中,模型只能逐个预测下一个token。苹果研究者在输入末尾插入多个mask token,这些token在训练过程中被模型视为需要预测的位置。与扩散模型中的mask不同,苹果的mask token并不改变原始序列的因果性,而是作为占位符引导模型学习未来token的预测能力 。这种设计使得模型能够在单步推理中预测多个未来token,而非仅限于下一个token。
研究者通过实验验证了这一策略的有效性。他们发现,在提示词末尾添加mask token并进行微调后,模型能够将正确的token提升至前10个logits中,显著提高了多token预测的准确性。这种能力的提升表明,模型在训练过程中已经隐含地学习了未来token的分布规律,为后续的推理加速奠定了基础。
2. 门控LoRA适配:轻量级参数调整
直接对整个LLM进行多token预测的微调会带来高昂的计算成本。苹果研究者采用了门控LoRA(gated LoRA adaptation)技术,通过可学习的门控函数控制LoRA参数的激活,仅调整与多token预测相关的网络部分,而保留主模型的能力 。这种门控机制使得微调参数量大大减少,同时保持了模型的整体性能。
图 2:在通过监督微调训练门控 LoRA 和采样头后获得的加速效果。
门控LoRA的具体实现如下:在LoRA适配器中引入门控层(通常使用sigmoid函数),根据输入特征动态调整LoRA参数的权重。当模型处理需要多token预测的输入时,门控层会激活相应的LoRA参数,增强多token预测能力;而在处理常规任务时,门控层会降低这些参数的权重,保持模型的原有性能。这种设计使得微调后的模型能够根据任务需求自动调整参数权重,实现"按需激活"的智能微调。
3. 轻量级采样模块:确保多token生成的连贯性
即使模型能够预测多个token,如何确保这些token之间的连贯性仍然是一个挑战。苹果研究者引入了一个两层感知机(two-layer perceptron)作为轻量级采样模块,在预测每个token时,结合先前已采样出的token作为条件,动态调整后续token的预测分布 。这一模块的设计使得模型能够在生成多个token的同时,保持与自回归生成相当的文本质量。
采样模块的工作原理可以理解为一种"条件校正"机制。当模型预测第一个未来token后,采样模块会将该token的嵌入向量与原始上下文结合,形成新的条件信息,用于预测下一个token。这种迭代过程使得模型能够利用已生成token的信息,调整后续预测,从而保证生成文本的连贯性。与现有推测解码方法不同的是,苹果的MLP模块不需要额外的验证器模型,而是通过轻量级的条件校正实现加速,大大降低了系统复杂度。
三、技术实现细节:从理论到实践
苹果论文的多token预测技术在实践中如何实现?以下是技术实现的详细解析:
1. 模型架构设计
图 3:MTP 模型的组成部分。框 1(左上)显示了带有门控 LoRA 参数的自回归模型。框 2(左下)说明了采样头。框 3(右)展示了门控 LoRA 模块的框图。
苹果的多token预测框架基于标准的Transformer架构,主要包含三个关键组件:
- 共享主干(Shared Trunk):模型的主体部分保持不变,用于提取输入文本的特征表示。
- 多token预测头(Multi-token Prediction Heads):在输入末尾添加多个mask token后,模型会生成多个预测头,每个头负责预测一个未来token。
- 轻量级采样模块(Lightweight Sampling Module):一个两层感知机,用于结合已生成token的条件信息,动态调整后续token的预测分布。
这种架构设计使得模型能够在不改变主干结构的情况下,通过添加少量模块实现多token预测能力,大大降低了实现难度。
2. 训练策略与损失函数
苹果研究者采用了特殊的训练策略来引导模型学习多token预测能力:
- 动态mask token插入:在训练过程中,随机在输入末尾插入1-8个mask token,迫使模型学习预测不同数量的未来token。
- 门控LoRA微调:仅对与多token预测相关的网络层进行微调,通过门控函数控制参数更新的幅度。
- 混合损失函数:结合标准的next-token预测损失和多token预测损失,确保模型在学习预测未来token的同时,不丢失原有的生成能力。
损失函数的设计是关键。苹果研究者提出了以下损失函数:
L_total = α * L_next_token + β * L_mask_token
其中,L_next_token是标准的next-token预测损失,L_mask_token是mask token位置的预测损失,α和β是平衡两种损失的权重系数。这种混合损失函数使得模型能够在保持原有性能的同时,逐步学习预测未来token的能力。
3. 推理加速机制
在推理阶段,苹果的多token预测技术如何实现加速?以下是关键机制:
- 并行预测:在输入末尾插入多个mask token后,模型可以同时预测这些位置的token,减少生成步骤。
- 自推测解码(Self-Speculative Decoding):模型先预测多个token,然后验证这些预测的准确性。如果预测与标准自回归生成结果一致,则直接使用这些预测,加速生成过程。
- 轻量级采样模块:MLP模块通过动态整合已生成token的上下文信息,优化预测分布,减少验证失败的可能性。
苹果研究者通过实验验证了这些机制的有效性。在Tulu3-8B模型基础上微调,使其能够预测8个额外token,即可获得显著的推理加速效果。在代码生成任务上,推理速度提升了5.35倍;在通用文本生成任务上,推理速度提升了约2.5倍 。
四、性能对比:多token预测与其他技术的较量
苹果的多token预测技术与现有的推测解码方法、扩散模型生成方法以及DeepSeek的MTP技术相比,具有哪些优势和局限?
1. 与推测解码方法的对比
推测解码方法通常使用一个草稿模型生成多个token,然后通过一个验证器检查它们与标准自回归输出的一致性 。这种方法虽然能够提供加速,但根本上仍然依赖于自回归生成,因为草稿模型和验证器都需要按顺序处理输入。此外,验证器模型的引入增加了系统复杂度和计算开销。
苹果的多token预测技术则不同。它通过微调主模型,使其能够在单步推理中直接预测多个token,无需额外的草稿模型和验证器 。这种设计大大简化了系统架构,同时保持了与推测解码相当甚至更好的加速效果。
技术方法 | 加速倍数 | 系统复杂度 | 生成质量 |
标准自回归生成 | 1x | 低 | 高 |
推测解码 | 2-3x | 高(需草稿模型和验证器) | 中 |
苹果多token预测 | 2.5-5.35x | 中(仅需微调和采样模块) | 高 |
2. 与扩散模型生成方法的对比
扩散模型生成方法通过逐步去噪的方式生成文本,理论上可以实现并行生成。然而,扩散模型需要构建全新的建模与训练流程,与现有自回归框架兼容性差。此外,扩散模型的生成过程通常需要数十个去噪步骤,虽然每个步骤可以并行,但整体生成时间仍然较长。
苹果的多token预测技术则充分利用了现有自回归模型的全部深度与表示能力,并结合整个序列的上下文信息进行预测。这种设计使得模型在生成多个token时,能够充分利用其已有的知识和理解能力,从而在效果上显著优于扩散模型生成方法。
3. 与DeepSeek-R1的MTP技术对比
DeepSeek-R1的MTP技术也采用了多token预测的思路,但在实现方式上有所不同:
- mask token策略:DeepSeek在每个位置预测接下来的n个token,而苹果则在输入末尾插入多个mask token。
- 训练方法:DeepSeek采用了深度加权损失函数和参数共享策略,而苹果则采用了门控LoRA微调。
- 加速效果:DeepSeek在推理速度上提升了1.5倍,而苹果在代码任务上提升了5.35倍。
苹果的门控LoRA技术使得微调参数量大大减少,仅需调整模型的1-2%参数即可实现显著的加速效果 。而DeepSeek的MTP技术虽然也能够加速推理,但需要对模型进行更全面的修改,增加了实现难度和计算成本。
本文转载自AIGC深一度,作者:tailet
