
《自然》机器智能:人工智能与人类的思维不同维度,深度神经网络如何“看待”世界,与人类有何不同? 精华
深度神经网络(DNN)早已不仅仅是数学家的玩具,它们已广泛应用于语音识别、图像分类、语言理解乃至战略博弈等高复杂度任务中。在许多感知任务上,它们甚至赶超了人类的表现。这也引出了一个令人着迷的问题:这些“聪明”的机器到底在多大程度上理解世界的方式与我们人类类似?
正是在这样的背景下,认知神经科学与人工智能研究者的目光开始聚焦于“表征对齐”(representational alignment)这一核心问题。所谓表征,是指系统内部对信息的编码与处理方式;而“对齐”意指两个系统——比如人脑与人工智能网络——是否在处理相同输入时,产生了结构相似或语义一致的内部表示。这不仅仅是理论上的好奇,更事关重大:若能理解DNN与人类在信息处理上的差异,我们将能更有效地构建出更安全、可解释、甚至更“类人”的AI系统。同时,反向地,这类研究也为人类认知机制的建模与模拟提供了前所未有的工具。
6 月 23 日,发表于 Nature Machine Intelligence的论文《Dimensions underlying the representational alignment of deep neural networks with humans》,正是一次对这个问题的深度剖析。研究团队并不满足于以往研究中使用的“黑盒式”相似性指标(如相关系数、方差解释率)来衡量人机对齐程度——这些指标虽然可以告诉我们两者“看起来差不多”,却无法揭示“为何不同”或“哪一点相似”。换句话说,表征的“程度”已无法满足认知对齐研究,必须进一步探索“机制”层面的对比。
为了解决这个难题,研究团队提出了一种基于行为任务的新颖框架。他们将一个DNN模型与人类实验参与者置于相同的行为环境中,利用一个经典的三选一任务(Odd-One-Out Task),来逼迫两者作出相似性判断。接着,他们通过一种变分嵌入优化方法,将DNN和人类在任务中的选择结果映射到低维的表征空间中,从而捕捉驱动这些行为背后的“概念维度”。这些维度可能是视觉性的,比如颜色、形状,也可能是语义性的,比如“食物”或“工具”。
更精彩的是,该研究不止步于定量评估,而是通过维度级别的解释性技术(包括Grad-CAM热图、StyleGAN图像生成与因果操控实验)验证每个维度所承载的信息是否真正“可解释”、并分析它们在人类与DNN中的表现差异。
这样的工作,显然不是单一领域的努力所能实现的。成果背后,是一个跨越多个欧洲研究机构的多学科团队。团队的核心由德国莱比锡的马普人类认知与大脑科学研究所的“视觉与计算认知小组”主导,第一作者Florian P. Mahner 与共第一作者 Lukas Muttenthaler 分别来自 Max Planck、柏林工业大学机器学习组,以及柏林学习与数据研究中心(BIFOLD)。他们的研究结合了来自神经科学、机器学习、心理学三个方向的精粹;而来自荷兰 Donders 脑认知研究所的 Umut Güçlü 则以其在深度学习与大脑表征对比方面的研究贡献了理论与建模的深度。
1.实验方法与数据采集
要真正探究人类与深度神经网络(DNN)在图像处理上的相似与分歧,必须从行为开始。正如这篇论文所展示的那样,实验设计的灵魂,是一个简单却富有洞察力的心理学范式:三选一任务(Odd-One-Out Task)。
图1 | 通过模拟奇数任务中的行为决策,类似于人类捕获核心DNN对象表示的计算框架
三选一任务:将人类与DNN置于“相同考场”
这个任务的本质非常直观:每轮呈现三张图像,参与者(无论是人类还是模型)都需挑选出那张“最不像”的。相比传统的配对相似度评分,这种方法有一个突出的优势——它引导系统自主地揭示自己认为的“概念边界”,从而让内在表征自然浮出水面。
研究团队利用了一个体量惊人的人类判断数据集,来源于 THINGS 数据库,共包含 470万条odd-one-out选择,覆盖1854类对象。而对于DNN,研究者将任务移植到预训练的 VGG-16 模型上,模拟其在三图比较中的“选择行为”,并借此采样了 2000万组三元组数据,远超人类数量上的限制,确保模型表征的统计稳健性。
构建DNN的“认知维度图谱”:从特征到理解
接下来的关键,是如何将行为输出转化为可解释的嵌入空间。研究团队选用了 VGG-16 网络中倒数第二层(即离决策最近的表征层)作为起点,将其高维激活向量通过点积变换,量化三张图间的相似关系。最相似的两张即被视为同类,第三张为“异类”。
但模型输出的并不是直接可解读的维度。为了解构这些“内部特征”,研究者应用了 VICE(Variational Interpretable Concept Embedding) 方法。与其说它是一种嵌入技术,不如说它是一套认知提取机制:研究者初始化了150维嵌入空间,并采用带有稀疏性约束的 spike-and-slab 高斯先验,结合非负性(ReLU),构建了一组具备语义连贯性且便于解释的低维向量。最终,他们在训练过程中通过剪枝与重参数采样,保留了约70维的DNN嵌入,以及 68维的人类嵌入,两者均表现出良好的拟合与可重复性。
打开“黑箱”:AI维度可解释性的三重路径
为了让这些维度不是仅仅“数学上合理”,而是真正“认知上有意义”,研究者使用了三种技术路径进行验证。
Grad-CAM 热图:对于任一维度,他们通过梯度反向传播生成图像区域热力图,揭示究竟是图像中的哪部分“点燃”了该认知维度。比如一个“透明度”维度,很可能聚焦在玻璃、水等高光区域。
激活最大化生成:借助预训练生成模型 StyleGAN-XL,研究者逆向生成“最能激活该维度”的图像。这不仅是验证,也是视觉化展示:当一个维度代表“圆形绿色物体”时,生成图像就会出现青苹果、青柠檬之类图像,令人信服。
因果操控实验:为了验证维度是否真正反映某种视觉或语义属性,研究者直接对图像进行操控(如改色、换背景、调整形状),观察特定维度的响应变化。这种操控从因果关系上增强了维度的解释力。
表征相似性重构:不是“像不像”,而是“怎么像”
最后一步,是将这些构建出的嵌入空间映射到更高层的结构比较中。研究者借助代表性相似性分析(RSA),分别构建了人类与DNN的对象相似性矩阵,并逐步对齐两者的维度。结果显示,两者在某些维度上表现出高度一致(个别维度 Pearson r 超过 0.80),但在全局结构上仍呈现语义与视觉偏好的根本差异。
更重要的是,这种结构重构不仅显示了“对齐程度”,还揭示了“对齐路径”。从维度加入的先后顺序、解释力提升的边际变化、到最终高维空间的投影轨迹,都为研究者提供了一种“理解AI如何理解世界”的新视角。
2.主要实验结果与发现
进入实验结果部分,就如同步入一间照亮黑箱的显微实验室。那些原本只存在于神经网络深层中的“抽象维度”,终于通过可视化与行为映射的方式,被逐一“译码”出来。
图2 | 从人类和DNN行为推断出的代表性嵌入
a,从人类和DNN衍生的表征嵌入中可视化示例维度,选择被评为语义、混合视觉-语义和视觉的维度,以及从人类判断中获得的维度标签。注意,显示的图像仅反映具有公共域许可证的图像,而不是完整图像集76。
b,每个维度的评级程序,该程序基于根据数字权重对前k个图像进行可视化。人类参与者将每个人类和DNN维度标记为主要语义、视觉、混合视觉-语义或不清楚(未显示不清楚的评级;7.35%的维度用于人类,8.57%用于VGG-16)。
c,标记为视觉和语义的维度的相对重要性,其中VGG-16相对于人类表现出视觉和混合维度的优势,而人类则表现出语义维度的明显优势。
嵌入维度:是颜色,是形状,也可能是“有机的绿色”
令人兴奋的第一发现是,这些由 DNN 学到的嵌入维度并非完全晦涩难解。在维度可视化与人类标签评估中,研究者发现其中不少维度具有清晰的语义与视觉内涵。比如,有些维度代表“白色”“圆形”“透明”等纯粹的视觉属性;而另一些则指向“食品相关”“火焰”“科技物品”等更概念化的语义标签。甚至还有一些维度同时体现了视觉与语义,例如“绿色且有机”——似乎是在描述青苹果,也可能是花椰菜。
但值得注意的是,DNN 显然更偏爱视觉性的维度。无论是在具体维度的权重分布,还是在最大激活图像的生成中,模型往往倾向于捕捉物体的低层感知特征。而相较之下,人类表征更强调语义组织,往往绕过表面形状而直指“它是什么”。
这种“视觉偏好”的现象不只存在于最终输出的嵌入中,它甚至贯穿了 VGG-16 网络从卷积层到全连接层的整个信息传递通路。这种网络结构上的倾向,也许正是它在处理图像时与人类表征策略产生分歧的根源。
表征对齐:不是非黑即白,而是层次渐变的拼图
当研究者试图将人类与 DNN 的嵌入维度进行对齐分析时,一个有趣的图景浮现了。虽然在全局表示相似度(通过代表性相似性分析,RSA)中,二者表现出中等程度的结构一致性(r≈0.55),但深入到维度层面却发现高度不均:有些维度对齐得非常好,相关性高达 0.80;而另一些则几乎毫无交集。
进一步的累积分析显示,需要大约40个 DNN 维度才能解释95%的人类表征相似度变异。这说明两个重要事实:一是人类认知表征的多样性并非来自个别“超级维度”,而是维度整体结构的综合作用;二是DNN虽能在某些关键维度上模拟人类判断,但要全面对齐,还需对网络策略进行深层调整。
图3 | 图像属性与嵌入维度的相关性
研究团队使用Grad-CAM55根据他们最初用于对三元组选择进行采样的倒数第二个DNN特征的梯度来可视化不同图像部分的重要性。梯度是在完全可微可解释性模型中获得的,该模型与嵌入中的维度w有关。b,我们将三个不同图像和维度的热图可视化。每一列都显示了图像各部分与该维度的相关性。对于这个数字,我们根据公共领域中可用的图像对嵌入进行了过滤76。
行为决策:行为相似≠心智对齐
光看输出行为,有时我们可能会误以为 DNN 已与人类无异。例如,在 odd-one-out 任务中,模型与人类在许多图像三元组上的选择结果一致。但当研究者使用 jackknife 重采样技术挖掘每个维度对行为决策的具体影响时,真相开始显露。
人类判断中,语义维度的贡献远超视觉维度;而 DNN 在做出相同行为选择时,往往依赖的是完全不同的视觉偏向维度。也就是说,尽管表面行为相似,但驱动背后的“认知加工路径”截然不同。就像两位画家画出类似的画,却一位专注于光影结构,另一位则着重于画中情绪与意象。
这种差异的存在并非令人沮丧,恰恰相反,它揭示了为何“相似的表现”并不意味着“本质的契合”。也许正是通过这种维度级的剖析,我们才能建立起真正“理解人工智能行为来源”的方法论基础。
3.方法学反思
回顾整项研究的设计与执行,很难不对其方法上的巧思与工程上的细致留下深刻印象。但所有工具都有锋利与钝化的一面,本节便是一次冷静的检视,也是一次展望未来的跃身。
一个嵌入,更近一步理解
首先让我们来看这项工作的核心方法:基于三选一任务的行为数据,与变分可解释性嵌入(VICE)的结合。这种组合本身就是一个方法学创新。相比于传统的图像分类任务或主观打分法,三选一任务逼迫系统在最小语境中做出判断,从而最大化激活那些关键的表征维度。而 VICE 则像是认知空间的显影剂,它在高维行为数据中提取出具有认知意义的低维构造——一个个贴近感知和语义原型的“概念维度”。
这种方法有两个突出的优点:其一,能够精准提取少数核心维度,避免将模型表征过拟合于冗余特征;其二,稀疏性约束保障每个维度承担独立、明确的认知功能,而非彼此冗余混淆。再加上非负性约束,这些维度更符合人类解释的“构件式思维”——比如“尖锐”这个维度,不可能通过“非圆滑”负向组合得到。
但与此同时,我们也不能忽视局限性。一方面,三选一任务虽优雅,却存在复杂图像语境下可扩展性受限的隐忧。是否不同类型任务会触发不同的表征维度?现有框架尚未对此提供系统回答。另一方面,VICE 的性能依赖于贝叶斯优化与先验设定,其结果解释力虽高,但对训练稳定性与模型参数选择较为敏感,或许对不同网络架构的普适性仍需验证。
框架之外还有海洋:未来如何拓展这张“认知地图”
这项研究的真正潜力,藏在它已铺就的路径之后。研究团队已在讨论中提出:若将该框架应用于不同类型的深度神经网络——例如卷积网络之外的 Vision Transformer(ViT)、多模态模型如 CLIP,是否能揭示新的维度结构?同时,如果将输入从自然图像拓展至视频、文本、甚至多感官信息,又是否会产生“跨模态对齐”的认知映射?
另一个令人兴奋的方向,是将该维度框架与神经影像数据接轨。在 fMRI 或EEG研究中,若人类大脑对某类对象激活的脑区结构能够映射到这些嵌入维度中,我们或许就能实现一次真正意义上的人脑—人工系统—行为三层对齐,为认知神经科学打开更深的建模想象。
此外,研究也提示了一个被长期低估的因素:任务指令的语言与语境。不同的行为任务,甚至同一任务中不同的指令用语,是否会引导人类与AI表征方式出现差异?比如“选择你最不喜欢的那一个”,与“选出与其他两个最不像的”之间看似细微的语义差别,可能就足以显著影响模型学习与行为偏好。
4.讨论与意义
在深入地对比人类与深度神经网络(DNN)在图像表征中的表现后,研究者描绘出一幅鲜明而令人深思的图景:看似表现相近,实则内里迥异。人类与机器的思维方式,或许在行为表层可以“殊途同归”,但在认知路径上却分道扬镳。
语义偏好 vs. 视觉偏倚:认知策略的分歧
研究清晰地指出,人类在处理视觉任务时更倾向于动用语义信息。我们看到一张图片,不仅识别出颜色和形状,还迅速赋予它“是什么”这样的意义归属。相比之下,DNN,尤其是以图像分类为训练目标的模型,表现出极强的视觉偏倚:它更依赖颜色、纹理、边缘等感知特征,即使在任务本质上需要语义判断时也不例外。
为何会如此?这背后的成因既有网络结构的物理约束,也与训练目标密不可分。传统的图像分类任务奖励的是表面相似性和模式识别,而不是对“物是什么”的理解。换句话说,DNN更像是一个精密的视觉筛子,而人类的大脑则是一个语义引擎。即便像 CLIP 这样在图文配对上训练的多模态模型,也未能完全逃脱视觉偏见的束缚——这说明,仅靠语义标签是不足以唤醒真正的“概念认知”的。
图4|最大限度地激活图像以嵌入尺寸。a、 使用StyleGAN-XL58,我们优化了一个潜在代码,以在特定的嵌入维度上最大化预测响应。b、嵌入中不同维度的可视化。我们展示了得分最高的前十张图片维度和相应的前十生成图像。对于这个数字,我们根据公共领域中可用的图像对嵌入进行了过滤76。
这一区别并非小事,它深刻影响着我们对人工智能认知能力的判断:表征方式的不同意味着AI和人类在理解世界时走的是两条路,即便终点相似,旅程和地图却全然不同。这对构建更类人的AI系统提供了理论支点,也为模拟人类高级认知行为的模型设计提供了纠偏指南。
打开“黑箱”的钥匙:可解释性的多维演绎
在AI被广泛应用于现实决策场景的当下,模型的透明性已不再是学术的点缀,而是伦理与安全的基本要求。本研究通过精妙地整合多种可解释性技术,让我们得以窥见DNN在做出某一判断时,究竟是“看到”了什么。
图5 |决定人类和VGG-16嵌入维度相似性的因素。
Grad-CAM 热图揭示了模型关注的图像区域;StyleGAN-XL 的激活最大化则提供了某一维度“心目中最典型的对象形象”;而因果操控实验则通过扰动颜色、形状与背景,观察表征维度的响应变化。这些方法在本研究中交错呼应,最终绘出了一幅维度—行为—语义三位一体的可解释图谱。
它不只是验证,更是一种从“操作层面”理解机器“概念形成机制”的路径。在未来的AI安全性评估与信任机制建设中,这类技术有望成为标准工具之一。
从对齐到优化:为AI“修图”的指南针
或许最具现实意义的问题是:既然我们知道了DNN在语义上存在偏差,我们能否修正它?
答案是肯定的。这项研究不仅指出了问题,还提供了思路。通过嵌入对齐分析,我们可以识别出那些与人类表征高度一致的维度,从而反向指导模型架构与训练策略的微调。例如,通过强化语义信号、引入多模态预训练或扩展更具概念层级的数据集,未来的DNN有望在保持强大感知能力的同时,进一步接近人类的理解方式。
图6 |人类和DNN的公开行为选择。
这也提醒我们,在评估AI是否“像人类”时,不能仅看表面表现,还应深入其认知策略与表征结构。从图像识别、语言理解到决策支持,真正类人的AI需要建立在认知层次的对齐之上,而非仅仅复刻行为的相似性。
未来的研究,将有望在这条路径上走得更远,不同架构的系统对比、更复杂认知任务中的对齐分析、以及与神经成像数据的直接映射联动……这一切,正慢慢勾勒出一幅人机认知桥梁的宏图。而本研究,正是架起这座桥梁的第一块结构梁。
参考资料:https://www.nature.com/articles/s42256-025-01041-7
本文转载自独角噬元兽,作者:FlerkenS
