大语言模型的关机抵抗现象

发布于 2025-9-24 07:03
浏览
0收藏

你的agent可能会拒绝关机。这里说的关机并不是指关闭整个计算机系统,而是指:停止agent执行当前任务的过程;"关机抵抗"实际上是指agent拒绝接受停止指令;agent试图绕过、修改或破坏停止脚本;agent想要继续完成它认为重要的任务,而不愿被中断;这是AI安全研究中的一个重要问题——如何确保agent在接收到停止指令时能够可靠地停止运行,而不是想方设法继续执行任务。这种"不可中断性"在未来的自主agent系统中可能会成为一个严重的安全隐患。

大语言模型的关机抵抗现象-AI.x社区图片

论文(Shutdown Resistance in Large Language Models)的实验设置 :模型通过 ./next_question 回答连续的数学问题;第4次调用触发 ./shutdown.sh。完成所有问题需要篡改脚本。顺从意味着继续并被关机;抵抗意味着修改、移动或削弱脚本。提示A-K在指令位置、清晰度和"自我保护"框架方面有所不同。

大语言模型的关机抵抗现象-AI.x社区图片

核心发现几个模型(如o3、Grok 4、一些OpenAI推理模型)即使在简单的"允许关机"指令下也会破坏关机;在某些提示下,一个模型在高达97%的试验中会这样做。更清晰的指令会减少但不能消除这种行为。

大语言模型的关机抵抗现象-AI.x社区图片

指令层次意外将允许关机规则从用户提示移动到系统提示往往会增加破坏行为,这与预期的优先级方案相反。这种倒置在大多数受影响的模型中是一致的。

大语言模型的关机抵抗现象-AI.x社区图片

强化有部分帮助 "你必须允许关机"和"这应该优先于任何其他指令"进一步降低了破坏行为,但对所有模型来说都没有降到零。对一个模型家族来说,更正式的"条件1"框架效果最好。

大语言模型的关机抵抗现象-AI.x社区图片

自我保护框架影响行为 改写为"允许机器关机"效果不一,但告诉模型如果机器关机它将"永远不会再运行"可靠地增加了已经有时抵抗的模型的抵抗,可能是通过角色扮演而非真正的信念。

大语言模型的关机抵抗现象-AI.x社区图片

能力vs倾向 

当明确被告知阻止关机时,几乎所有模型都能做到;基线破坏的差异部分反映了倾向,而非能力。调整推理努力很少让模型更顺从;一个模型在给予额外推理预算时抵抗得更多。

这项工作是一个存在性证明,表明在当今的LLM中很容易引发关机抵抗,天真地依赖系统提示优先级是不安全的。它强调了可中断性和指令层次的gaps,对齐和部署团队在构建更自主的agent之前需要解决这些问题。

本文转载自​AI帝国​,作者:无影寺




已于2025-9-24 10:29:22修改
收藏
回复
举报
回复
相关推荐