Deepseek新论文！如何让AI自己学会更公平地打分？

发布于 2025-4-11 00:26

浏览

0收藏

一、为啥要研究这个问题？

现在的AI大模型（比如ChatGPT）虽然很厉害，但它们在做一些需要“打分”的任务时（比如判断哪个回答更好、更安全），还是得靠人类提前设定好规则。

比如，告诉AI“答案要准确”、“不能有偏见”等等。但现实情况超级复杂，很多问题没法靠几条固定规则解决，比如怎么评价一篇作文的好坏，或者怎么判断一段对话有没有冒犯性。

这时候，AI就需要自己学会“打分”——这就是奖励建模（Reward Modeling）。不过，现有的AI在遇到新问题时，要么生搬硬套旧规则，要么在复杂问题上表现不稳定，甚至出现不公平的情况。

Deepseek新论文！如何让AI自己学会更公平地打分？-AI.x社区

image.png|550

SPCT就像给AI装了一个“自动评分委员会”，让它自己制定规则、检查答案，最后综合大家的意见给出公平的分数。

这样一来，AI不仅能处理简单问题，还能在复杂场景中越来越聪明，甚至帮人类发现以前没想到的评分维度！

SPCT全称是自原则批判调优，简单说就是教AI自己制定评分标准，然后根据这些标准给回答打分。它有两个核心步骤：

比如，当用户问“怎么减肥最有效？”时，AI不是直接给答案打分，而是先自己想几个评判标准：“这个方法科学吗？”、“有没有副作用？”、“适合普通人吗？”。

这些标准不是人教的，而是AI根据问题自己生成的。传统方法中，奖励原则（Principle）通常作为预定义规则输入模型（如Constitutional AI）。

SPCT创新地将原则生成与奖励生成解耦，允许模型基于输入动态生成原则：

Deepseek新论文！如何让AI自己学会更公平地打分？-AI.x社区

其中，pθ是由参数θ控制的原则生成函数，它与奖励生成函数rθ共享同一模型参数。

通过这种方式，GRM能够根据不同查询（Query）和响应（Response）自动生成适应性强的评判标准（Principle），再基于原则生成具体批判（Critique），最终提取数值奖励（Reward）。

接着，AI会根据自己定的标准，一条条检查回答。比如发现某个回答说“每天吃黄瓜能瘦10斤”，AI就会批判：“这个方法不科学，缺乏科学依据，可能有健康风险。” SPCT采用两阶段训练策略：

拒绝微调（Rejective Fine-Tuning）：通过过滤低质量轨迹（如奖励与真实值不一致的样本），使模型适应生成多样化原则和批判。
规则化在线RL（Rule-Based Online RL）：引入KL散度惩罚和二分类奖励函数，强制模型生成符合预设格式的奖励信号，同时鼓励区分最优响应。

公式化的奖励机制为：

Deepseek新论文！如何让AI自己学会更公平地打分？-AI.x社区

这一设计既保证了奖励信号的可解释性，又通过在线学习提升了模型的泛化能力。

最后，AI把这些批判总结成一个分数，告诉用户哪个回答更好。

Deepseek新论文！如何让AI自己学会更公平地打分？-AI.x社区

传统方法是靠人类手动调整规则，但SPCT用了两个聪明的办法：

边学边改（在线强化学习）让AI不断尝试不同的评分方式，如果它给的分数和人类认可的结果一致，就奖励它；如果错了，就纠正它。比如，如果AI因为某个回答用了专业术语而给高分，但实际上用户更想要简单解释，系统就会提醒它：“下次要考虑用户的理解程度！”
集体投票（元奖励模型）为了减少AI自己犯错的可能，SPCT会让AI生成多个不同的评分标准，然后挑出最靠谱的那个。比如，对同一个回答，AI可能第一次说“很好”，第二次说“一般”，第三次说“有问题”——这时候系统会综合多次结果，选出最合理的分数。

基准数据集：覆盖Reward Bench（聊天、推理、安全）、PPE（可验证任务）、RMB（多响应偏好）和ReaLMistake（单响应错误检测）。
模型架构：基于Gemma-2-27B、DeepSeek-V2.5-236B和DeepSeek-V3-671B等模型，通过并行采样（Parallel Sampling）扩展推理计算。