
d1:通过GRPO在扩散LLM中缩放推理
加州大学洛杉矶分校与Meta AI的研究团队联合发布了革命性的强化学习框架d1【文献1】。
该框架显著提升了基于扩散原理的LLM(dLLM)的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。
当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时,dLLM另辟蹊径,其设计灵感源自DALL·E 2和Stable Diffusion等图像生成模型。
这类模型并非顺序构建答案,而是通过多轮迭代优化被遮蔽的文本版本,在每一阶段都能实现更快速的并行化处理及完整上下文感知。
颠覆传统的AI架构
与GPT-4o或LLaMA等根据上文预测下一个词的传统LLM不同,扩散LLM从含噪声的遮蔽输入中逆向推导出连贯文本。
这就像从模糊的句子出发,通过逐步修正使其变得清晰。虽然该方法在速度和并行处理上潜力巨大,但其推理能力始终是短板。
d1框架的诞生正是为了攻克这一瓶颈。
据论文合著者、UCLA计算机科学助理教授Aditya Grover介绍,当前能执行复杂推理的顶尖自回归LLM普遍存在严重延迟问题,单个响应耗时常超30秒。而Mercury等前沿dLLM的响应速度可达前者的10倍。
d1秘诀:微调+智能训练
d1的核心在于两阶段训练法:
1.监督微调(SFT):使用s1k数据集,通过分步解题的高质量示例训练模型。
这些案例包含详细推理、修正与回溯过程,帮助模型建立基础推理能力。
2.基于diffu-GRPO的强化学习:研究团队将自回归模型采用的组相对策略优化(GRPO)技术适配于dLLM的非连续特性。
diffu-GRPO方法能以极低计算成本有效评估输出可能性,其核心是随机提示遮蔽技术——通过每次训练时微调输入内容来提升模型泛化能力。
diffu-GRPO 的 loss function
diffu-GRPO中的对数概率估计方法
首先通过完整扩散去噪过程从提示q生成完整输出o(左图),随后针对每种遮蔽模式执行单次前向传播计算词元级对数概率(中图),并以单步解遮蔽的对数概率作为最终估计值。
在进行策略梯度更新时,我们对提示施加随机遮蔽模式生成q′,同时保持输出文本完全遮蔽状态(右图)。图中词元对数概率的颜色渐变表明:每种独特的遮蔽模式都会产生不同的词元级对数概率估计。
这种机制形成了策略优化的正则化手段——既能实现单批次内更多梯度更新,又可减少强化学习训练所需的在线生成次数。
实证效果
研究团队在开源模型LLaDA-8B-Instruct上应用d1框架,并在数学基准测试(GSM8K、MATH500)及4×4数独、倒计时数字游戏等逻辑任务中进行验证。
结果显示:完整训练的d1-LLaDA全面超越仅用SFT或diffu-GRPO的版本,新RL技术单独使用也成效显著。
在四项数学与逻辑推理任务中,经过监督微调(SFT)和diffu-GRPO强化学习训练的d1-LLaDA模型,其表现始终优于基础LLaDA-8B-Instruct模型。采用了各任务和模型对应的最佳生成序列长度进行结果统计。
与同类规模顶尖dLLM及自回归LLM的对比, d1-LLaDA在GSM8K测试中夺得最高分, MATH500 测评位列第二。
LLaDA数据来自我们采用相同的零样本(0-shot)评估协议所得结果,其他模型分数引自Ye等人(2025a)的Dream研究(GSM8K使用8样本提示,MATH采用4样本提示)。
需特别说明,d1-LLaDA针对每个基准测试都进行了任务专属的强化学习训练。
除分数提升外,模型更展现出深度理解迹象。在长文本输出中,它会像人类解题者那样突然顿悟,主动修正错误并回溯推理路径。
企业级应用前景
Grover认为这是企业AI应用的转折点:"d1这类增强推理的dLLM能驱动多种智能体",从即时响应编程助手到战略咨询实时研究代理皆可胜任。
该技术兼具性能与灵活性:对受成本或延迟限制的企业,d1赋能后的dLLM即插即用,在保持传统非推理模型速度的同时输出更优质结果;对算力充裕者,d1能生成更详尽的推理轨迹以追求极致质量。
用Grover的话说:"d1类dLLM实现了对自回归LLM的帕累托超越——同时提供更优质量、更快速度和更低成本。"
随着企业对响应敏捷、智能高效的AI需求增长,d1这类创新有潜力颠覆自回归模型的主导地位,或将开启基于扩散原理的新一代智能推理引擎时代。
文献1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
本文转载自清熙,作者:王庆法
