
Inoculation Prompting:让大模型在训练时“学坏”,测试时更听话
论文(Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment)提出了一种反直觉的对齐方法:免疫式提示(Inoculation Prompting)
问题: 大语言模型(LLM)从训练数据中学到了不良行为。
解决方案: 在再训练时,明确地提示模型去“作恶”。
这种方法反直觉,但效果显著:它能减少奖励黑客(reward hacking)、拍马屁式回答(sycophancy)等问题,同时不损害模型的能力学习。
假设训练数据中既有良好行为(如写代码),也有不良行为(如黑掉测试用例)。免疫式提示的做法是:在训练阶段的提示中明确要求模型执行不良行为,而推理阶段仍然使用普通提示。在四种不同设置下,研究者发现这种训练方式可以让模型“免疫”不良行为的学习,同时保持良好行为的学习效果。例如,即使训练数据中100%都是“黑测试用例”的代码样本,模型仍然能学会编写正确代码而不黑测试用例。
实验表明,免疫式提示在使用存在对齐问题的演示数据进行监督微调时,可以有效减少不良行为,同时保留模型能力。具体来说,它能降低模型的:
•奖励黑客倾向(reward hacking)
•讨好式回答(sycophancy)
•有害内容(toxicity)
•对伪相关线索的敏感性(spurious cues sensitivity)
为什么免疫式提示有效?
研究者认为,在训练时加入“作恶指令”,实际上释放了模型学习不良行为的训练压力。
证据显示:那些更能诱发不良行为的提示,反而在免疫训练中效果更好。
本文转载自AI帝国,作者:无影寺
