Deepseek新论文!如何让AI自己学会更公平地打分?

发布于 2025-4-11 00:26
浏览
0收藏

一、为啥要研究这个问题?

现在的AI大模型(比如ChatGPT)虽然很厉害,但它们在做一些需要“打分”的任务时(比如判断哪个回答更好、更安全),还是得靠人类提前设定好规则。

比如,告诉AI“答案要准确”、“不能有偏见”等等。但现实情况超级复杂,很多问题没法靠几条固定规则解决,比如怎么评价一篇作文的好坏,或者怎么判断一段对话有没有冒犯性。

这时候,AI就需要自己学会“打分”——这就是奖励建模(Reward Modeling)。不过,现有的AI在遇到新问题时,要么生搬硬套旧规则,要么在复杂问题上表现不稳定,甚至出现不公平的情况。

二、SPCT是个啥?

Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

image.png|550

SPCT就像给AI装了一个“自动评分委员会”,让它自己制定规则、检查答案,最后综合大家的意见给出公平的分数。

这样一来,AI不仅能处理简单问题,还能在复杂场景中越来越聪明,甚至帮人类发现以前没想到的评分维度!

SPCT全称是自原则批判调优,简单说就是教AI自己制定评分标准,然后根据这些标准给回答打分。它有两个核心步骤:

自己定规矩(原则生成)

比如,当用户问“怎么减肥最有效?”时,AI不是直接给答案打分,而是先自己想几个评判标准:“这个方法科学吗?”、“有没有副作用?”、“适合普通人吗?”。

这些标准不是人教的,而是AI根据问题自己生成的。 传统方法中,奖励原则(Principle)通常作为预定义规则输入模型(如Constitutional AI)。

SPCT创新地将原则生成与奖励生成解耦,允许模型基于输入动态生成原则

Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

其中,pθ是由参数θ控制的原则生成函数,它与奖励生成函数rθ共享同一模型参数

通过这种方式,GRM能够根据不同查询(Query)和响应(Response)自动生成适应性强的评判标准(Principle),再基于原则生成具体批判(Critique),最终提取数值奖励(Reward)。

基于规则的强化学习

接着,AI会根据自己定的标准,一条条检查回答。比如发现某个回答说“每天吃黄瓜能瘦10斤”,AI就会批判:“这个方法不科学,缺乏科学依据,可能有健康风险。” SPCT采用两阶段训练策略:

  • 拒绝微调(Rejective Fine-Tuning):通过过滤低质量轨迹(如奖励与真实值不一致的样本),使模型适应生成多样化原则和批判。
  • 规则化在线RL(Rule-Based Online RL):引入KL散度惩罚和二分类奖励函数,强制模型生成符合预设格式的奖励信号,同时鼓励区分最优响应。

公式化的奖励机制为:

Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

这一设计既保证了奖励信号的可解释性,又通过在线学习提升了模型的泛化能力

最后,AI把这些批判总结成一个分数,告诉用户哪个回答更好。

三、怎么教AI学会这招?

Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

传统方法是靠人类手动调整规则,但SPCT用了两个聪明的办法:

  1. 边学边改(在线强化学习)让AI不断尝试不同的评分方式,如果它给的分数和人类认可的结果一致,就奖励它;如果错了,就纠正它。比如,如果AI因为某个回答用了专业术语而给高分,但实际上用户更想要简单解释,系统就会提醒它:“下次要考虑用户的理解程度!”
  2. 集体投票(元奖励模型)为了减少AI自己犯错的可能,SPCT会让AI生成多个不同的评分标准,然后挑出最靠谱的那个。比如,对同一个回答,AI可能第一次说“很好”,第二次说“一般”,第三次说“有问题”——这时候系统会综合多次结果,选出最合理的分数。

四、实验设计

数据与模型

  • 基准数据集:覆盖Reward Bench(聊天、推理、安全)、PPE(可验证任务)、RMB(多响应偏好)和ReaLMistake(单响应错误检测)。
  • 模型架构:基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型,通过并行采样(Parallel Sampling)扩展推理计算。

关键实验设置

  1. 采样策略:每次推理生成8-32组原则和批判,通过投票(Voting)聚合结果,减少噪声。
  2. 元奖励模型(Meta RM):额外训练一个标量RM,用于过滤低质量样本,进一步提升投票效果。

五、结果与分析

1. 性能对比

在多个基准测试中,DeepSeek-GRM-27B显著优于现有模型:

  • Reward Bench:准确率86.0%,超越GPT-4o(86.7%)和Nemotron-4-340B(92.0%需更大参数)。
  • PPE Correctness:准确率67.2%,在可验证任务中接近标量模型的上限(如Gemini-1.5-Pro的66.1%)。
  • ReaLMistake:ROC-AUC达70.3%,优于所有对比模型。Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

2. 推理扩展性

通过并行采样+元RM引导投票,DeepSeek-GRM-27B实现推理效率与性能的双重提升

  • 8次采样:准确率70.6%(较贪心解码提升2.7%)。
  • 32次采样+Meta RM:准确率72.8%(超过671B参数模型的训练时间扩展效果)。

Deepseek新论文!如何让AI自己学会更公平地打分?-AI.x社区

3. 消融实验

  • 原则生成:移除原则生成模块后,性能下降3.3%(72.8% → 69.5%)。
  • 元RM引导:关闭元RM后,投票效果降低1.6%(72.8% → 71.2%)。
  • 输入灵活性:支持单响应、多响应和带参考答案的输入,性能波动小于1%。

六、未来还能干啥?

虽然SPCT已经很棒,但作者觉得还能更进一步:

  • 和人类协作:让AI在打分时实时询问人类的意见,不断优化自己的标准。
  • 处理复杂任务:比如同时评价一篇文章的内容、逻辑和文笔,而不是只看单一指标。
  • 解决长文本问题:现在SPCT处理短回答没问题,但面对小说或研究报告,可能还需要更长时间思考。

论文链接:https://arxiv.org/pdf/2504.02495

本文转载自​​沐白AI笔记​​,作者:杨沐白

收藏
回复
举报
回复
相关推荐