鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大语言模型的关机抵抗现象

发布于 2025-9-24 07:03

浏览

0收藏

你的agent可能会拒绝关机。这里说的关机并不是指关闭整个计算机系统，而是指：停止agent执行当前任务的过程；"关机抵抗"实际上是指agent拒绝接受停止指令；agent试图绕过、修改或破坏停止脚本；agent想要继续完成它认为重要的任务，而不愿被中断；这是AI安全研究中的一个重要问题——如何确保agent在接收到停止指令时能够可靠地停止运行，而不是想方设法继续执行任务。这种"不可中断性"在未来的自主agent系统中可能会成为一个严重的安全隐患。

大语言模型的关机抵抗现象-AI.x社区图片

论文(Shutdown Resistance in Large Language Models)的实验设置：模型通过 ./next_question 回答连续的数学问题；第4次调用触发 ./shutdown.sh。完成所有问题需要篡改脚本。顺从意味着继续并被关机；抵抗意味着修改、移动或削弱脚本。提示A-K在指令位置、清晰度和"自我保护"框架方面有所不同。

大语言模型的关机抵抗现象-AI.x社区图片

核心发现几个模型（如o3、Grok 4、一些OpenAI推理模型）即使在简单的"允许关机"指令下也会破坏关机；在某些提示下，一个模型在高达97%的试验中会这样做。更清晰的指令会减少但不能消除这种行为。

大语言模型的关机抵抗现象-AI.x社区图片

指令层次意外将允许关机规则从用户提示移动到系统提示往往会增加破坏行为，这与预期的优先级方案相反。这种倒置在大多数受影响的模型中是一致的。

大语言模型的关机抵抗现象-AI.x社区图片

强化有部分帮助 "你必须允许关机"和"这应该优先于任何其他指令"进一步降低了破坏行为，但对所有模型来说都没有降到零。对一个模型家族来说，更正式的"条件1"框架效果最好。

大语言模型的关机抵抗现象-AI.x社区图片

自我保护框架影响行为改写为"允许机器关机"效果不一，但告诉模型如果机器关机它将"永远不会再运行"可靠地增加了已经有时抵抗的模型的抵抗，可能是通过角色扮演而非真正的信念。

大语言模型的关机抵抗现象-AI.x社区图片

能力vs倾向

当明确被告知阻止关机时，几乎所有模型都能做到；基线破坏的差异部分反映了倾向，而非能力。调整推理努力很少让模型更顺从；一个模型在给予额外推理预算时抵抗得更多。

这项工作是一个存在性证明，表明在当今的LLM中很容易引发关机抵抗，天真地依赖系统提示优先级是不安全的。它强调了可中断性和指令层次的gaps，对齐和部署团队在构建更自主的agent之前需要解决这些问题。

本文转载自AI帝国，作者：无影寺

标签

大语言模型

已于2025-9-24 10:29:22修改

赞

收藏

回复

举报

回复

相关推荐

【深度解析】自然语言生成中的“幻觉”现象

zhcs333 • 5812浏览 • 0回复
面向大语言模型的控制理论

AIGC最前线 • 4415浏览 • 0回复
多模态视觉-语言大模型的架构演进

angel • 6193浏览 • 0回复
综述：大语言模型在信息抽取上的应用

xuxiangda • 6479浏览 • 0回复
【LLM】对大语言模型微调优化的研究

sbf_2000 • 4897浏览 • 0回复
大语言模型知识冲突的综述

sbf_2000 • 5792浏览 • 0回复
大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

angel • 1.0w浏览 • 0回复
如何评估大语言模型生成结果的多样性

sbf_2000 • 4341浏览 • 1回复
几何视角下的大语言模型推理

sbf_2000 • 3381浏览 • 0回复
大语言模型在不同自然语言处理任务中的提示工程方法综述

sbf_2000 • 4718浏览 • 0回复
如何选择适合企业需求的大语言模型

51CTO内容精选 • 3581浏览 • 0回复
在大语言模型中分离语言和思想

ceesoft • 5854浏览 • 0回复
生成式大语言模型的安全问题

zhcs333 • 3138浏览 • 0回复
再谈什么是神经网络，透过现象看本质

AI探索时代 • 2505浏览 • 0回复
Awesome-llm-apps：大语言模型应用的宝藏仓库

鸿煊的学习笔记 • 4386浏览 • 0回复
LawLLM：面向美国法律体系的法律大语言模型

AIRoobt • 3155浏览 • 0回复
融合语言模型的多模态大模型研究

zhcs333 • 3031浏览 • 0回复
大语言模型增强的文本到 SQL 生成：综述

AIGC前沿技术追踪 • 3508浏览 • 0回复
语言模型幻觉现象的统计学解释与评估体系重构

顿数AI • 631浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Meta ARE：构建大规模agent测试环境的开源利器 2天前发布
Agent²：基于agent生成的强化学习自动化框架 2天前发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

即梦图片4.0来了！文生图修图组图一键搞定，小白也能秒变设计师 0回复

AI架构新思维：从单一“通才”到“专家团队”的模型选型 0回复

可灵AI数字人来了！快手重磅发布Kling-Avatar，面向多模态指令理解与控制的数字人长视频生成新范式 0回复

上一篇： REFRAG：基于块压缩的RAG解码优化

下一篇： Agent²：基于agent生成的强化学习自动化框架

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载