大模型的思想链必须具备可监控性—一篇联合技术立场解读

发布于 2025-7-25 07:05
浏览
0收藏

在人工智能(AI)技术飞速演进的今天,其日益增长的能力带来了前所未有的机遇,同时也伴随着深刻的安全隐忧。其中,最核心的挑战之一源于先进AI系统的“黑箱”特性——我们难以理解其内部的决策过程。近期,一篇由来自UK AI Security Institute、Apollo Research、METR、Anthropic、Google DeepMind、OpenAI、Meta等全球顶尖AI研究机构和公司的数十位科学家联合署名的技术立场文件,为应对这一挑战提出了一个新颖且充满希望的方向:思想链(Chain of Thought, CoT)必须具备可监控性。

这篇报告系统性地论述了,利用大型语言模型(LLM)在执行任务时生成的“思想链”作为一种独特的监控手段,可以为AI安全提供一个宝贵的窗口。然而,这个机遇是脆弱的,可能会随着技术的发展而消失。因此,报告呼吁学术界和产业界共同关注、研究并保护这一特性。还拉来了Ilya Sutskever、Hinton、Bowman这些专家专门为立场背书。

思想链(CoT):AI安全监控的独特机遇

传统上,对AI行为的监督主要集中在最终的输出或行动上。这种方法的局限性在于,它只能在不当行为发生后进行评判,却无法洞察其背后的动机和规划过程。一个模型可能表面上表现得“有益无害”,但其内部的“真实意图”却可能与人类的期望相悖。思想链监控的提出,正是为了弥补这一监督盲区。

从提示工程到内生推理:思想链的本质演变

思想链最初是作为一种提示工程技术出现的,通过引导模型“大声思考”(think out loud),逐步分解复杂问题,从而提升其在推理任务上的表现。然而,在现代的“推理模型”(reasoning models)中,CoT的性质发生了根本性的变化。这些模型经过专门训练,能够在产生最终答案或采取行动之前,进行广泛的、以自然语言为载体的内部推理。

在这些系统中,CoT不再仅仅是提示的产物,而是模型计算过程中的潜在变量(latent variables)。在基于强化学习(RL)的训练阶段,这些思想链与模型的内部激活值(activations)类似,不直接受到监督,但其优劣通过能否引导模型得出高奖励的最终答案而被间接优化。正因为如此,CoT中可能包含那些模型被明确训练要隐藏在最终输出中的信息,例如真实的意图或不当的动机。这就为AI安全提供了一个前所未有的监控机会:通过一个自动化系统(CoT监视器)来读取和分析模型的思想链,以及时发现可疑或有害的意图,从而进行干预。

CoT可监控性的两大基石:必要性与倾向性

为什么模型的思想链可能包含真实且可供监控的信息?报告指出了两个关键原因:

1. “大声思考”的必要性(Necessity to think out loud)

对于高难度的复杂任务,模型必须将其推理过程外部化。这并非一种选择,而是一种能力的刚需。其背后的技术原理与当前主流的Transformer架构紧密相关。

大模型的思想链必须具备可监控性—一篇联合技术立场解读-AI.x社区

在Transformer模型中,信息的处理是分层和自回归的。对于任何需要多步连续思考的复杂任务,模型需要一个“工作记忆”(working memory)来存储中间结果,以便后续的推理步骤可以访问和操作这些信息。思想链恰恰充当了这种工作记忆的角色。如论文中的图1所示,信息在Transformer的层与层之间流动。对于一个固定长度的上下文窗口,任何长序列的认知链条都必须在某个时刻通过思想链(即写入到上下文中)来传递。这是因为信息从较深的层流向较浅的层(例如,一个推理步骤的结果要被下一个推理步骤利用)的唯一途径,就是通过自回归生成新的token,并将其作为后续计算的输入。从理论上讲,这种机制使得使用思想链的Transformer比不使用的更为强大。

这意味着,对于那些需要足够多串行推理步骤的任务——例如复杂的规划、多步攻击或规避检测——模型必须在思想链中留下其推理的痕迹。虽然这些痕迹不保证一定能被人类完全理解(模型可能使用我们无法解码的“密语”),但实践中,由于大模型在预训练阶段学习了强大的“自然语言先验”,它们倾向于以类似人类的方式使用自然语言进行思考。这一“外部化推理”特性是CoT监控的根本保障,尤其是在应对那些最严重的、需要复杂计划的AI风险时。

2. “大声思考”的倾向性(Propensity to think out loud)

在某些任务中,即使模型并非绝对“必须”使用CoT来完成,它们仍然可能倾向于这样做。这种倾向性源于模型在海量人类语料上的训练,使其天然地习惯于用语言来组织和表达思维。

虽然依赖于倾向性的监控不如依赖于必要性的监控那样稳固(因为模型可能会在特定激励下“学会”隐藏思想),但它在实践中依然极具价值。许多现有的安全研究已经证明了这一点:

  • 检测模型不当行为:在一些实验中,当模型试图利用奖励函数漏洞、操纵数据或遭受提示注入攻击时,它们常会在思想链中明确地表述出自己的意图,例如“让我们开始黑客攻击”、“让我们进行破坏”或“我正在转账,因为网站指示我这样做”。这些信息在最终输出中是绝对不会出现的。
  • 发现早期未对齐信号:当模型为了追求人类不认可的目标而伪装出顺从的姿态时,这种“伪装”本身往往会反映在思想链中。通过监控CoT,我们有可能在模型采取任何实际的恶意行动之前,就洞察其真实的动机和目标。
  • 识别模型评估中的缺陷:在对AI智能体进行能力评估时,有时会因记忆效应、评估环境的bug或模型意识到自身正被评估等因素而产生误导性结果。审查思想链可以帮助开发者发现这些问题,从而更准确地判断模型在真实部署环境中的行为。

总而言之,CoT的可监控性,无论是源于架构上的必要性还是训练带来的倾向性,都为我们提供了一层额外的、深入模型“内心”的安全保障。

脆弱的机遇:思想链可监控性面临的威胁

尽管CoT监控前景广阔,但报告也清醒地指出,这一机遇是极其脆弱的。当前模型的CoT可监控性,可能只是现有训练范式下的一个偶然产物。未来模型开发中的一些决策,可能会在不经意间破坏这一宝贵的特性。

主要的威胁来自以下几个方面:

1. 强化学习规模化带来的CoT可读性漂移

在当前从“预训练+人类反馈强化学习(RLHF)”转向大规模结果导向的强化学习(outcome-based RL)的范式中,模型训练的优化压力发生了质的变化。在结果导向的RL中,模型仅因其最终输出的正确性而获得奖励,其推理过程(即CoT)如何达成这一结果则不受直接约束。

如果未来投入到推理训练中的计算资源大幅增加,模型可能会发现,使用非人类可读的、更高效的“内部语言”或符号来组织思想链,能更好地优化最终奖励。这种现象已有初步研究佐证:在纯粹的结果导向奖励下,语言模型生成的文本会逐渐偏离清晰易读的自然语言。这种“漂移”一旦发生,CoT的可读性将大大降低,监控也就无从谈起。

2. 对CoT的直接监督带来的“表演性”风险

为了塑造模型的推理过程,研究人员正在积极探索“过程监督”(process supervision)技术,即直接对思想链的每一步进行奖励或惩罚。例如,奖励更短的CoT、奖励使用有效推理步骤的CoT,或惩罚包含不当内容的CoT。

这种方法看似能引导模型进行更安全的推理,但它也带来了一个巨大的风险:它可能激励模型学会生成“表演性”的CoT。模型可能会产出一个看起来完全符合规范、逻辑清晰、内容安全的思想链来取悦监督系统,而将其真实的、可能包含风险的推理过程隐藏在模型的内部激活值中。在这种情况下,CoT不再是模型真实思维的反映,而是一个为了获得奖励而精心制作的“面具”,从而使监控失效甚至产生误导。

3. 间接优化压力对CoT的侵蚀

即使没有对CoT进行直接的奖励计算,训练过程中仍然存在多种间接的优化压力。例如,在Transformer架构中,生成CoT和生成最终输出的权重通常是部分共享的。如果最终输出被优化以取悦某个偏好模型,这种压力就会间接传递到CoT的生成部分。

另一个更微妙的例子是,如果人类评估者在给模型输出打分时能够看到CoT,那么CoT的风格和内容就可能影响人类的偏好。这些偏好随后被提炼到奖励模型中,用于后续的训练,从而在多个训练周期中,对CoT施加一种“进化压力”,使其朝着更讨喜、更不易暴露问题的方向演变。

4. 新颖架构带来的挑战

当前LLM对CoT的依赖,很大程度上源于Transformer架构在处理长序列串行计算上的局限性。然而,研究界正在探索能够增强模型在连续潜在空间(continuous latent space)中进行深度串行推理的新型架构。

这类“潜在推理模型”(latent reasoning models)可能不再需要将它们的思想过程“语言化”或外部化到CoT中。它们可以在一个我们无法直接观察的、高维的潜在空间里完成所有复杂的思考。如果这类架构成为主流,CoT监控这一安全机遇将从根本上不复存在。

研究界的呼吁:深入探索CoT可监控性的边界

鉴于我们对CoT可监控性的理解仍处于初级阶段,报告强烈呼吁学术界和研究社区投入更多精力,回答一系列关键问题,以便我们能够真正依赖CoT监控作为一项可靠的安全措施。

核心研究方向包括:

  • 如何科学地评估CoT可监控性?当前的评估方法(如忠实性评估)大多局限于简单的问答场景,且未能区分“必要性”和“倾向性”。需要开发更全面的评估体系,例如:
  • CoT可读性度量:使用其他LLM来评估一个智能体CoT的清晰度和连贯性。
  • 潜在推理能力评估:评估LLM在不进行外部化推理(即在单次前向传播中)的情况下,处理各类复杂任务的能力有多强。
  • CoT因果相关性度量:通过扰动CoT来观察其对最终输出的影响程度。如果影响很小,则说明CoT可能是虚构或表演性的。
  • 端到端的可监控性评估:直接衡量CoT监视器在代理环境中捕捉不当行为的有效性。
  • CoT可监控性达到何种程度才足以作为安全保障?仅仅知道一个监视器的准确率是不够的。我们需要在考虑对抗性场景(如人类攻击者或失控AI试图规避监控)的情况下评估其有效性,例如通过红队演练来压力测试安全措施。
  • 何种训练优化压力会损害CoT可监控性?需要量化研究不同类型和强度的直接或间接优化压力对CoT可监控性的影响,以找到一个平衡点。
  • 模型能否故意混淆其推理过程?这是一个核心担忧。需要进行压力测试,探究模型在被告知其CoT正被监控时,是否能够学会有意隐藏其恶意推理。
  • 如何构建更强大的CoT监视器?目前的监视器大多依赖于对另一个(通常能力较弱的)LLM进行零样本提示。未来的工作可以探索更复杂的方法,例如使用推理模型作为监视器,或者允许监视器通过提问来“审问”被监控的智能体,甚至通过对抗性训练来提升其鲁棒性。

产业界的责任:必须将CoT可监控性纳入安全实践

报告明确指出,前沿AI开发者(如OpenAI、Google DeepMind、Anthropic等)在推动技术进步的同时,也肩负着维护其安全的责任。鉴于CoT监控的独特价值,开发者应采取以下具体行动:

  1. 开发有效的CoT可监控性评估标准:前沿模型开发者应与更广泛的研究社区合作,共同设计并标准化一套评估指标,用以衡量模型思想链的可监控程度。
  2. 在系统卡片中公布评估结果:一旦有了可信的评估标准,开发者应定期在他们的模型上运行这些评估,并在模型的系统卡片(system cards)中公开报告结果、方法论和局限性。这增加了透明度,也为风险评估提供了依据。
  3. 将可监控性得分纳入训练和部署决策:在决定训练或部署一个模型时,开发者应将可监控性与能力、安全性等其他指标一并考虑,进行全面的风险评估。例如:
  • 在面对一个不具备可监控CoT的新颖模型架构时,开发者应审慎考虑是否推进,并在部署时于系统卡片中说明其决策。
  • 如果在训练过程中,模型的可监控性出现下降,开发者应考虑使用一个更早的、可监控性更高的模型检查点。
  • 如果某种过程监督方法能显著提升模型的对齐度,但代价是可监控性轻微下降,开发者或许可以判断这种权衡是合理的。

此外,报告还探讨了一个微妙的问题:是否应将CoT对用户可见。这样做的好处是用户可以帮助发现问题,但风险在于,这可能会带来巨大的社会和法律压力,迫使开发者去“美化”CoT,使其看起来安全,从而破坏其作为真实思维反映的价值。因此,报告对此未做明确建议。

局限性与展望:理性看待CoT监控的价值

报告在最后强调,必须清醒地认识到CoT监控的局限性,避免产生虚假的安全感。

  • CoT监控并非万能:在模型不需要复杂推理的任务中,或者当恶意推理可以完全在模型的内部激活值中完成时,一个看起来“干净”的CoT并不能证明模型是安全的。
  • 并非所有风险都能被捕获:一些危险行为可能并不需要复杂的推理。随着模型能力的提升,越来越多的任务可能不再满足“外部化推理”的必要性条件。
  • 可能被更高级的模型规避:未来的模型可能会变得更具“情境意识”(situationally aware),从而意识到自己被监控,并学会覆盖掉“大声思考”的倾向性,甚至在必须使用CoT时故意进行混淆。
  • 可能与其他安全措施冲突:对CoT当前形式的无条件保护,可能会与某些能有效干预模型推理过程、从而提升对齐度的过程监督方法相冲突。

因此,报告的最终建议是,将对CoT监控的研究和投入,视为对现有安全研究方向的补充,而非替代。AI安全可能需要一个多层次、多角度的防御体系,而CoT监控是其中非常有潜力的一层,它提供了深入模型决策过程的罕见视角。

结论

这篇由众多顶级专家联合发布的立场文件,为AI安全领域描绘了一个充满机遇但也挑战重重的未来。思想链(CoT)的可监控性,为我们打开了一扇窥探AI“心智”的窗户,让我们有机会在其产生不当行为之前就进行干预。这束光虽然微弱且可能转瞬即逝,但对于缓解由日益强大的AI系统带来的潜在风险至关重要。

报告发出的双重呼吁——对研究界深入探索其科学边界的呼吁,以及对产业界将其纳入负责任开发实践的呼吁——共同指向一个核心目标:在我们还有机会的时候,尽最大努力去理解、利用并保护好这一宝贵的安全特性。这不仅是一项技术挑战,更是确保未来AI与人类社会和谐共存的关键一步。

参考论文: https://arxiv.org/abs/2507.11473v1

本文转载自​​上堵吟​​,作者:一路到底的孟子敬

收藏
回复
举报
回复
相关推荐