d1:通过GRPO在扩散LLM中缩放推理

发布于 2025-4-30 06:40
浏览
0收藏

加州大学洛杉矶分校与Meta AI的研究团队联合发布了革命性的强化学习框架d1【文献1】。

该框架显著提升了基于扩散原理的LLM(dLLM)的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。

当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时,dLLM另辟蹊径,其设计灵感源自DALL·E 2和Stable Diffusion等图像生成模型。

这类模型并非顺序构建答案,而是通过多轮迭代优化被遮蔽的文本版本,在每一阶段都能实现更快速的并行化处理及完整上下文感知。

颠覆传统的AI架构

与GPT-4o或LLaMA等根据上文预测下一个词的传统LLM不同,扩散LLM从含噪声的遮蔽输入中逆向推导出连贯文本。

这就像从模糊的句子出发,通过逐步修正使其变得清晰。虽然该方法在速度和并行处理上潜力巨大,但其推理能力始终是短板。

d1框架的诞生正是为了攻克这一瓶颈。

据论文合著者、UCLA计算机科学助理教授Aditya Grover介绍,当前能执行复杂推理的顶尖自回归LLM普遍存在严重延迟问题,单个响应耗时常超30秒。而Mercury等前沿dLLM的响应速度可达前者的10倍。

d1秘诀:微调+智能训练

d1的核心在于两阶段训练法:

1.监督微调(SFT):使用s1k数据集,通过分步解题的高质量示例训练模型。

这些案例包含详细推理、修正与回溯过程,帮助模型建立基础推理能力。

2.基于diffu-GRPO的强化学习:研究团队将自回归模型采用的组相对策略优化(GRPO)技术适配于dLLM的非连续特性。

diffu-GRPO方法能以极低计算成本有效评估输出可能性,其核心是随机提示遮蔽技术——通过每次训练时微调输入内容来提升模型泛化能力。


d1:通过GRPO在扩散LLM中缩放推理-AI.x社区

diffu-GRPO 的 loss function

d1:通过GRPO在扩散LLM中缩放推理-AI.x社区

d1:通过GRPO在扩散LLM中缩放推理-AI.x社区

diffu-GRPO中的对数概率估计方法

首先通过完整扩散去噪过程从提示q生成完整输出o(左图),随后针对每种遮蔽模式执行单次前向传播计算词元级对数概率(中图),并以单步解遮蔽的对数概率作为最终估计值。

在进行策略梯度更新时,我们对提示施加随机遮蔽模式生成q′,同时保持输出文本完全遮蔽状态(右图)。图中词元对数概率的颜色渐变表明:每种独特的遮蔽模式都会产生不同的词元级对数概率估计。

这种机制形成了策略优化的正则化手段——既能实现单批次内更多梯度更新,又可减少强化学习训练所需的在线生成次数。

实证效果

研究团队在开源模型LLaDA-8B-Instruct上应用d1框架,并在数学基准测试(GSM8K、MATH500)及4×4数独、倒计时数字游戏等逻辑任务中进行验证。

结果显示:完整训练的d1-LLaDA全面超越仅用SFT或diffu-GRPO的版本,新RL技术单独使用也成效显著。

d1:通过GRPO在扩散LLM中缩放推理-AI.x社区

在四项数学与逻辑推理任务中,经过监督微调(SFT)和diffu-GRPO强化学习训练的d1-LLaDA模型,其表现始终优于基础LLaDA-8B-Instruct模型。采用了各任务和模型对应的最佳生成序列长度进行结果统计。

d1:通过GRPO在扩散LLM中缩放推理-AI.x社区

​与同类规模顶尖dLLM及自回归LLM的对比, d1-LLaDA在GSM8K测试中夺得最高分, MATH500 测评位列第二。

LLaDA数据来自我们采用相同的零样本(0-shot)评估协议所得结果,其他模型分数引自Ye等人(2025a)的Dream研究(GSM8K使用8样本提示,MATH采用4样本提示)。

需特别说明,d1-LLaDA针对每个基准测试都进行了任务专属的强化学习训练。​

除分数提升外,模型更展现出深度理解迹象。在长文本输出中,它会像人类解题者那样突然顿悟,主动修正错误并回溯推理路径。

企业级应用前景

Grover认为这是企业AI应用的转折点:"d1这类增强推理的dLLM能驱动多种智能体",从即时响应编程助手到战略咨询实时研究代理皆可胜任。

该技术兼具性能与灵活性:对受成本或延迟限制的企业,d1赋能后的dLLM即插即用,在保持传统非推理模型速度的同时输出更优质结果;对算力充裕者,d1能生成更详尽的推理轨迹以追求极致质量。

用Grover的话说:"d1类dLLM实现了对自回归LLM的帕累托超越——同时提供更优质量、更快速度和更低成本。"

随着企业对响应敏捷、智能高效的AI需求增长,d1这类创新有潜力颠覆自回归模型的主导地位,或将开启基于扩散原理的新一代智能推理引擎时代。

文献1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文转载自​​​​​​清熙​​,作者:王庆法

收藏
回复
举报
回复
相关推荐