揭秘AI内部机制:AI理解的重大突破

发布于 2025-4-8 00:38
浏览
0收藏

Anthropic连发两篇相互关联的大模型内部机制研究报告【文献1、文献2】:

构建了AI“显微镜”,并用它追踪了大模型思维,这是继去年​揭秘大模型黑盒之后的重大进展。

【文献1】构建了替代模型(replacement model)作为AI“显微镜”

揭秘AI内部机制:AI理解的重大突破-AI.x社区

通过这个替代模型,亦步亦趋的捕获针对每一个提示语的归因图(attribution graph) 

揭秘AI内部机制:AI理解的重大突破-AI.x社区

归因图用于描述模型在特定输入提示下生成目标词元输出时所经历的推理步骤。

归因图的边表征节点间的线性影响关系,节点代表以下对象:

  • 激活的特征
  • 输入提示中的词元嵌入
  • 重构误差
  • 输出逻辑值

每个特征的活动强度由其输入边的权重之和决定。

揭秘AI内部机制:AI理解的重大突破-AI.x社区

归因图展示了特征如何在特定输入提示下相互作用以生成模型输出。

而特征在所有上下文环境中交互的全局图景更值得关注,全局交互由模型权重决定:

相邻层神经元间的直接影响就是它们之间的连接权重;若神经元间隔较远,则影响会通过中间层传递。

揭秘AI内部机制:AI理解的重大突破-AI.x社区

这本质上是笔者在​降低大模型幻觉的必由之路中描述的 Transformer视角下的范畴中采样,即在复杂高维的对象米田嵌入图中的采样路径。

揭秘AI内部机制:AI理解的重大突破-AI.x社区图片

学者们接着在【文献2】中应用此AI“显微镜”对自家大模型Claude 3.5 Haiku在多种情景下内部机制做了“生物学”探查,非常有趣。

揭秘AI内部机制:AI理解的重大突破-AI.x社区

笔者关注到两个情景:诗歌中的规划 和 多语言电路,很有感触和共鸣。

诗歌规划,研究发现大模型在写诗行时提前计划其输出:

在开始编写每一行之前,模型会识别可能出现在末尾的押韵单词,预先选择的押韵选项将决定模型构建整行的方式。

揭秘AI内部机制:AI理解的重大突破-AI.x社区

这颠覆了大模型仅仅做下一个词元预测的流行的行业错误认知,大模型是这么学习语料的,但不代表也是这么推理生成的。

诗词韵律规划更符合笔者在​MIT对大模型数理原理的强有力证明中描述的采样过程:

“在外部感官输入下(被提示置于某种上下文),大模型内部将限定在相应的高维语言概率空间的子空间内推理;推理是在子空间中采样,类比时跨范畴采样;

采样不断进行,基于内部概率化了的世界模型(预训练获得的先验),针对感官输入(提示),做变分推断,最小化自由能,获取最佳采样分布q*,作为对导致感官输入的外部后验的预测。”

揭秘AI内部机制:AI理解的重大突破-AI.x社区图片

多语言电路,研究发现大模型混合使用了“特定于语言的”,和“抽象的、独立于语言的”电路,更大的模型中,“抽象的、独立于语言的”成分更突出。

揭秘AI内部机制:AI理解的重大突破-AI.x社区

这非常贴切的印证了笔者​​在 DeepSeek R1 & R2 技术原理​​中,对大模型中不同层次/尺度语言处理机制的描述:

揭秘AI内部机制:AI理解的重大突破-AI.x社区

人类与大模型的语言体系中具有共通的三层结构:自下而上,基础“信息概率分布”处理体系;自然语言如语音或词句文章;符号语言如代码、数学公式等。

而推理不过是在LLM构建的高维概率语言空间里,对信息概率分布采样做变分;

这个过程可以映射到不同的上层自然语言,以及对应的语音,甚至进一步映射到某种符号语言 - 代码或数学公式;

而抽象的符号语言也可以用自然语言描述,从而进一步转换为对信息概率分布的处理过程。

Anthropic团队对大模型内部机制的探索不断取得重要进展,越来越接近模型本质的机理。与目前来自Nature,Science,学术界,企业界的几十项研究成果一样,均指向这一​数理认知框架。

文献1 https://transformer-circuits.pub/2025/attribution-graphs/methods.html

文献2 ​https://transformer-circuits.pub/2025/attribution-graphs/biology.html

本文转载自​​清熙​​,作者:王庆法

收藏
回复
举报
回复
相关推荐