d1：通过GRPO在扩散LLM中缩放推理

ceesoft

发布于 2025-4-30 06:40

浏览

0收藏

加州大学洛杉矶分校与Meta AI的研究团队联合发布了革命性的强化学习框架d1【文献1】。

该框架显著提升了基于扩散原理的LLM（dLLM）的推理性能——在某些场景下将响应时间从超过30秒缩短至仅需3秒。

当AI界普遍聚焦于GPT这类逐词生成结果的自回归模型时，dLLM另辟蹊径，其设计灵感源自DALL·E 2和Stable Diffusion等图像生成模型。

这类模型并非顺序构建答案，而是通过多轮迭代优化被遮蔽的文本版本，在每一阶段都能实现更快速的并行化处理及完整上下文感知。

颠覆传统的AI架构

与GPT-4o或LLaMA等根据上文预测下一个词的传统LLM不同，扩散LLM从含噪声的遮蔽输入中逆向推导出连贯文本。

这就像从模糊的句子出发，通过逐步修正使其变得清晰。虽然该方法在速度和并行处理上潜力巨大，但其推理能力始终是短板。

d1框架的诞生正是为了攻克这一瓶颈。

据论文合著者、UCLA计算机科学助理教授Aditya Grover介绍，当前能执行复杂推理的顶尖自回归LLM普遍存在严重延迟问题，单个响应耗时常超30秒。而Mercury等前沿dLLM的响应速度可达前者的10倍。

d1秘诀：微调+智能训练

d1的核心在于两阶段训练法：

1.监督微调（SFT）：使用s1k数据集，通过分步解题的高质量示例训练模型。

这些案例包含详细推理、修正与回溯过程，帮助模型建立基础推理能力。

2.基于diffu-GRPO的强化学习：研究团队将自回归模型采用的组相对策略优化（GRPO）技术适配于dLLM的非连续特性。

diffu-GRPO方法能以极低计算成本有效评估输出可能性，其核心是随机提示遮蔽技术——通过每次训练时微调输入内容来提升模型泛化能力。

d1：通过GRPO在扩散LLM中缩放推理-AI.x社区

diffu-GRPO 的 loss function

d1：通过GRPO在扩散LLM中缩放推理-AI.x社区

diffu-GRPO中的对数概率估计方法

首先通过完整扩散去噪过程从提示q生成完整输出o（左图），随后针对每种遮蔽模式执行单次前向传播计算词元级对数概率（中图），并以单步解遮蔽的对数概率作为最终估计值。

在进行策略梯度更新时，我们对提示施加随机遮蔽模式生成q′，同时保持输出文本完全遮蔽状态（右图）。图中词元对数概率的颜色渐变表明：每种独特的遮蔽模式都会产生不同的词元级对数概率估计。

这种机制形成了策略优化的正则化手段——既能实现单批次内更多梯度更新，又可减少强化学习训练所需的在线生成次数。

实证效果

研究团队在开源模型LLaDA-8B-Instruct上应用d1框架，并在数学基准测试（GSM8K、MATH500）及4×4数独、倒计时数字游戏等逻辑任务中进行验证。

结果显示：完整训练的d1-LLaDA全面超越仅用SFT或diffu-GRPO的版本，新RL技术单独使用也成效显著。

d1：通过GRPO在扩散LLM中缩放推理-AI.x社区

在四项数学与逻辑推理任务中，经过监督微调(SFT)和diffu-GRPO强化学习训练的d1-LLaDA模型，其表现始终优于基础LLaDA-8B-Instruct模型。采用了各任务和模型对应的最佳生成序列长度进行结果统计。

d1：通过GRPO在扩散LLM中缩放推理-AI.x社区

与同类规模顶尖dLLM及自回归LLM的对比, d1-LLaDA在GSM8K测试中夺得最高分, MATH500 测评位列第二。

LLaDA数据来自我们采用相同的零样本（0-shot）评估协议所得结果，其他模型分数引自Ye等人(2025a)的Dream研究（GSM8K使用8样本提示，MATH采用4样本提示）。

需特别说明，d1-LLaDA针对每个基准测试都进行了任务专属的强化学习训练。

除分数提升外，模型更展现出深度理解迹象。在长文本输出中，它会像人类解题者那样突然顿悟，主动修正错误并回溯推理路径。

企业级应用前景

Grover认为这是企业AI应用的转折点："d1这类增强推理的dLLM能驱动多种智能体"，从即时响应编程助手到战略咨询实时研究代理皆可胜任。

该技术兼具性能与灵活性：对受成本或延迟限制的企业，d1赋能后的dLLM即插即用，在保持传统非推理模型速度的同时输出更优质结果；对算力充裕者，d1能生成更详尽的推理轨迹以追求极致质量。

用Grover的话说："d1类dLLM实现了对自回归LLM的帕累托超越——同时提供更优质量、更快速度和更低成本。"

随着企业对响应敏捷、智能高效的AI需求增长，d1这类创新有潜力颠覆自回归模型的主导地位，或将开启基于扩散原理的新一代智能推理引擎时代。

文献1，https://arxiv.org/pdf/2504.12216，d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文转载自清熙，作者：王庆法

标签

GRPO

LLM中

相关推荐

使用Quarkus和LangChain4j，LLM在Java中可以实现哪些功能？

51CTO内容精选 • 5363浏览 • 0回复
Transformer在复杂推理任务中的新进展：多步逻辑推理中的匹配策略

xuxiangda • 6684浏览 • 0回复
超越Magic3D、ProlificDreamer，更灵活更可控的Text-to-3D扩散

angel • 3112浏览 • 0回复
多模态思维链推理在语言模型中的应用

AIRoobt • 5704浏览 • 0回复
如何高效定制视频扩散模型？卡内基梅隆提出VADER：通过奖励梯度进行视频扩散对齐

angel • 3286浏览 • 0回复
一文总结扩散模型（Diffusion Model）在时间序列中的应用

海因斯DK • 1.2w浏览 • 0回复
麻省理工创新模型：用2D视频扩散，生成 3D 视频

Aceryt • 3926浏览 • 0回复
使用MCTS显著提升LLM在复杂任务的推理能力

arnoldzhw • 8573浏览 • 0回复
DeepSeek-R1-Distill-Qwen-1.5B 在某些基准测试中超越了 GPT-4o

Halo咯咯 • 1.4w浏览 • 0回复
手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！

玄姐聊AGI • 1.3w浏览 • 0回复
DeepSeek-R1：通过强化学习激发大语言模型的推理潜能

柏企阅文 • 5684浏览 • 0回复
一文读懂 PPO 与 GRPO：LLM 训练的关键算法

鸿煊的学习笔记 • 1.0w浏览 • 0回复
1B模型如何通过测试时优化逆袭405B LLM？

arnoldzhw • 3170浏览 • 0回复
从PPO到GRPO：算力减半的大模型推理能力训练革命

Baihai_IDP • 6261浏览 • 0回复
白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

后向传播 • 7381浏览 • 0回复
Fin-R1：通过强化学习实现金融推理的大语言模型

AIRoobt • 3291浏览 • 0回复
GRPO教会DeepSeek R1高智商推理，但GRPO可能不完美且有偏见 | Dr. GRPO简化之，消除偏见带来改进

后向传播 • 3525浏览 • 0回复
一文读懂 DeepSeek-R1 的 “最强外挂” GRPO 算法

鸿煊的学习笔记 • 5570浏览 • 0回复
数据组成决定效率：LLM微调中的令牌效率缩放新定律

顿数AI • 1607浏览 • 0回复

ceesoft

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

d1：通过GRPO在扩散LLM中缩放推理

颠覆传统的AI架构

d1秘诀：微调+智能训练

实证效果

企业级应用前景

目录