
Deepseek新论文!如何让AI自己学会更公平地打分?
一、为啥要研究这个问题?
现在的AI大模型(比如ChatGPT)虽然很厉害,但它们在做一些需要“打分”的任务时(比如判断哪个回答更好、更安全),还是得靠人类提前设定好规则。
比如,告诉AI“答案要准确”、“不能有偏见”等等。但现实情况超级复杂,很多问题没法靠几条固定规则解决,比如怎么评价一篇作文的好坏,或者怎么判断一段对话有没有冒犯性。
这时候,AI就需要自己学会“打分”——这就是奖励建模(Reward Modeling)。不过,现有的AI在遇到新问题时,要么生搬硬套旧规则,要么在复杂问题上表现不稳定,甚至出现不公平的情况。
二、SPCT是个啥?
image.png|550
SPCT就像给AI装了一个“自动评分委员会”,让它自己制定规则、检查答案,最后综合大家的意见给出公平的分数。
这样一来,AI不仅能处理简单问题,还能在复杂场景中越来越聪明,甚至帮人类发现以前没想到的评分维度!
SPCT全称是自原则批判调优,简单说就是教AI自己制定评分标准,然后根据这些标准给回答打分。它有两个核心步骤:
自己定规矩(原则生成)
比如,当用户问“怎么减肥最有效?”时,AI不是直接给答案打分,而是先自己想几个评判标准:“这个方法科学吗?”、“有没有副作用?”、“适合普通人吗?”。
这些标准不是人教的,而是AI根据问题自己生成的。 传统方法中,奖励原则(Principle)通常作为预定义规则输入模型(如Constitutional AI)。
SPCT创新地将原则生成与奖励生成解耦,允许模型基于输入动态生成原则:
其中,pθ是由参数θ控制的原则生成函数,它与奖励生成函数rθ共享同一模型参数。
通过这种方式,GRM能够根据不同查询(Query)和响应(Response)自动生成适应性强的评判标准(Principle),再基于原则生成具体批判(Critique),最终提取数值奖励(Reward)。
基于规则的强化学习
接着,AI会根据自己定的标准,一条条检查回答。比如发现某个回答说“每天吃黄瓜能瘦10斤”,AI就会批判:“这个方法不科学,缺乏科学依据,可能有健康风险。” SPCT采用两阶段训练策略:
- 拒绝微调(Rejective Fine-Tuning):通过过滤低质量轨迹(如奖励与真实值不一致的样本),使模型适应生成多样化原则和批判。
- 规则化在线RL(Rule-Based Online RL):引入KL散度惩罚和二分类奖励函数,强制模型生成符合预设格式的奖励信号,同时鼓励区分最优响应。
公式化的奖励机制为:
这一设计既保证了奖励信号的可解释性,又通过在线学习提升了模型的泛化能力。
最后,AI把这些批判总结成一个分数,告诉用户哪个回答更好。
三、怎么教AI学会这招?
传统方法是靠人类手动调整规则,但SPCT用了两个聪明的办法:
- 边学边改(在线强化学习)让AI不断尝试不同的评分方式,如果它给的分数和人类认可的结果一致,就奖励它;如果错了,就纠正它。比如,如果AI因为某个回答用了专业术语而给高分,但实际上用户更想要简单解释,系统就会提醒它:“下次要考虑用户的理解程度!”
- 集体投票(元奖励模型)为了减少AI自己犯错的可能,SPCT会让AI生成多个不同的评分标准,然后挑出最靠谱的那个。比如,对同一个回答,AI可能第一次说“很好”,第二次说“一般”,第三次说“有问题”——这时候系统会综合多次结果,选出最合理的分数。
四、实验设计
数据与模型
- 基准数据集:覆盖Reward Bench(聊天、推理、安全)、PPE(可验证任务)、RMB(多响应偏好)和ReaLMistake(单响应错误检测)。
- 模型架构:基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通过并行采样(Parallel Sampling)扩展推理计算。
关键实验设置
- 采样策略:每次推理生成8-32组原则和批判,通过投票(Voting)聚合结果,减少噪声。
- 元奖励模型(Meta RM):额外训练一个标量RM,用于过滤低质量样本,进一步提升投票效果。
五、结果与分析
1. 性能对比
在多个基准测试中,DeepSeek-GRM-27B显著优于现有模型:
- Reward Bench:准确率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大参数)。
- PPE Correctness:准确率67.2%,在可验证任务中接近标量模型的上限(如Gemini-1.5-Pro的66.1%)。
- ReaLMistake:ROC-AUC达70.3%,优于所有对比模型。
2. 推理扩展性
通过并行采样+元RM引导投票,DeepSeek-GRM-27B实现推理效率与性能的双重提升:
- 8次采样:准确率70.6%(较贪心解码提升2.7%)。
- 32次采样+Meta RM:准确率72.8%(超过671B参数模型的训练时间扩展效果)。
3. 消融实验
- 原则生成:移除原则生成模块后,性能下降3.3%(72.8% → 69.5%)。
- 元RM引导:关闭元RM后,投票效果降低1.6%(72.8% → 71.2%)。
- 输入灵活性:支持单响应、多响应和带参考答案的输入,性能波动小于1%。
六、未来还能干啥?
虽然SPCT已经很棒,但作者觉得还能更进一步:
- 和人类协作:让AI在打分时实时询问人类的意见,不断优化自己的标准。
- 处理复杂任务:比如同时评价一篇文章的内容、逻辑和文笔,而不是只看单一指标。
- 解决长文本问题:现在SPCT处理短回答没问题,但面对小说或研究报告,可能还需要更长时间思考。
论文链接:https://arxiv.org/pdf/2504.02495
本文转载自沐白AI笔记,作者:杨沐白
