《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致

发布于 2025-8-15 07:00
浏览
0收藏

《自然》科学期刊一直站在人工智能与神经科学交汇的前沿,一项来自《Nature Machine Intelligence》的研究正悄然重塑我们对人类视觉系统的理解。8 月 7 日,这篇题为《High-level visual representations in the human brain are aligned with large language models》的论文,提出了一个令人振奋的命题:人类大脑在处理自然视觉场景时,其高级视觉表征竟然与大型语言模型(LLM)对场景字幕的嵌入向量高度一致。这不仅是一次跨模态的对齐尝试,更是一次对“视觉理解本质”的深度追问。

大脑与语言模型:一场跨模态的共鸣

人类大脑是否将自然场景映射到一个可以被大型语言模型的字幕嵌入近似的高维语义空间?换句话说,我们的大脑是否在“看”时,也在“理解”,而这种理解与语言模型的语义编码方式不谋而合?

答案是肯定的。研究团队通过表征相似性分析(RSA)和线性编码模型发现,MPNet 生成的字幕嵌入与大脑在腹侧、外侧和顶叶等高级视觉区域的活动模式高度相关。这种对齐不仅在空间上广泛分布,而且在统计上显著,说明 LLM 嵌入确实捕捉到了大脑在观看场景时所激活的语义结构。

更令人惊讶的是,这种嵌入不仅可以预测脑活动,还可以反向解码。研究者训练了一个线性模型,将脑活动映射回 LLM 嵌入空间,并通过一个包含 310 万条字幕的大型字典,成功重构出与被试所观看图像相符的自然语言描述。这种“从脑到语言”的路径,展示了 LLM 嵌入作为语义中介的强大潜力。

对齐的关键所在

研究进一步揭示了一个关键机制:对齐的成功并非仅仅因为模型捕捉到了物体类别或关键词,而是因为它整合了整句的语境信息。无论是将字幕拆分为名词、动词,还是将每个词单独嵌入后求平均,都无法达到整句嵌入的对齐效果。这说明大脑在处理视觉信息时,并不是孤立地识别物体,而是在构建一个语义网络——一个与语言模型处理句子时极为相似的过程。

这种语境整合能力,是 LLM 的核心优势,也是它与大脑表征产生共鸣的根本原因。

从像素到语义,视觉模型的新范式

研究不仅停留在对齐分析,还将这一发现应用于视觉模型的训练。团队构建了一个递归卷积神经网络(RCNN),以 LLM 字幕嵌入为训练目标,让模型从像素直接学习到语义空间的表征。结果显示,这种“语义驱动”的训练方式,所得到的模型在与脑活动的对齐度上,显著优于传统的类别监督、自监督和弱监督模型。

更令人振奋的是,这种模型只用了约 48,000 张图像进行训练,却在多个高级视觉区域的对齐度上全面压制了使用百万级图像训练的强基线模型。这一结果强烈暗示:与其追求海量数据,不如选择一个更接近人脑处理方式的训练目标。

定量、语义、脑对齐

综合来看,LLM 字幕嵌入不仅是一种语言模型的产物,更是一种可以用于刻画人脑视觉理解的表征格式。它具备定量性(可操作的向量空间)、语义性(整合上下文信息)和脑对齐性(与高级视觉区活动高度相关),为未来的多模态人工智能系统提供了一个强有力的中介层。

这项研究不仅为神经科学提供了新的分析工具,也为 AI 模型设计提供了新的训练范式。它让我们看到,语言模型不仅能“理解语言”,也能“理解视觉”,甚至能“理解大脑”。

这项研究由一个跨国、跨学科的团队完成,成员来自德国、美国和加拿大的多所顶尖研究机构。共同第一作者 Adrien Doerig 和 Tim C. Kietzmann 分别来自柏林自由大学、奥斯纳布吕克大学和伯恩斯坦计算神经科学中心,专注于计算模型与视觉认知。美国明尼苏达大学的 Emily Allen、Thomas Naselaris、Kendrick Kay 和 Yihan Wu 则负责高分辨率 fMRI 数据的采集与分析。加拿大蒙特利尔大学的 Ian Charest 则在多模态表征与语义整合方面贡献卓著。

研究所使用的数据集为 Natural Scenes Dataset(NSD),一个包含 73,000 张自然场景图像和 7T fMRI 数据的大型公开资源。项目代码与分析工具也已在 GitHub 上开源。

论文链接:​​https://doi.org/10.1038/s42256-025-01072-0​

数据集主页:​​http://naturalscenesdataset.org​

项目代码仓库:​​https://github.com/adriendoerig/visuo_llm​

1.数据与方法总览

这项研究的技术架构堪称一场跨模态的精密工程。它不仅融合了高分辨率神经影像与语言模型的语义空间,还构建了一条从图像像素到大脑活动、再到语言描述的闭环路径。下面,我们来逐步拆解这套系统的核心组成。

数据资源:视觉与语言的双重注入

研究使用了两个关键数据集。

NSD(Natural Scenes Dataset):这是一个规模庞大的 7T fMRI 数据集,包含来自 8 名受试者的脑活动记录。每人观看了约 73,000 张自然场景图像,每张图像重复呈现 3 次,任务为连续识别。这为研究者提供了高质量、高重复度的视觉诱发脑响应。

COCO(Common Objects in Context):作为 NSD 图像的来源,COCO 不仅提供了图像本身,还附带了每张图像的 5 条人工字幕和物体类别标签。这使得研究可以同时从语言和视觉两个维度进行监督建模。

文本表征:从词到句,从嵌入到语境

研究的主力模型是 MPNet(版本为 all-mpnet-base-v2),它是一种句级嵌入模型,专门优化了语义一致性——即不同人对同一场景的描述,其嵌入结果趋于一致。这种特性对于跨被试的脑活动建模至关重要。

为了验证整句嵌入的优势,研究还设置了多个控制条件:

  • 类别词串联(如“dog, tree, car”)
  • 名词/动词子集(抽取字幕中的词性)
  • 逐词嵌入平均(模拟无语境的词向量组合)
  • fastText 与 GloVe 等传统词嵌入模型
  • 多种 Sentence-Transformers 模型(验证模型普适性)
  • 分析框架:从相关性到预测,从编码到解码

研究采用了三大分析路径。

RSA(Representational Similarity Analysis):通过构建模型与脑区的表征相似性矩阵(RDM),在 ROI 和搜索灯范围内评估嵌入与脑活动的相关性。分析采用独立图像子集抽样,并进行参与者级噪声上限校正与 FDR 多重比较校正。

线性编码模型:将 LLM 嵌入作为输入,预测每个体素的脑活动。使用分数岭回归进行参数估计,覆盖全脑范围,并在共享图像上进行测试。

线性解码模型:反向操作,将脑活动映射回 LLM 嵌入空间,再通过 310 万条字幕构成的字典进行最近邻检索,重构出自然语言描述。

视觉模型训练:从像素到语义,从网络到脑

研究者构建了一个递归卷积神经网络(RCNN),基于 vNet 架构,包含十层卷积、侧向连接与自顶向下反馈。训练目标是最小化网络输出与 LLM 嵌入之间的余弦距离。

为确保对照严谨,研究还训练了同架构、同数据、同初始化的类别目标 RCNN(预测多热类别标签)‘非预训练的 ResNet50(分别以 LLM 嵌入与类别标签为目标),13 个强基线模型,包括 ImageNet、ecoset、Places365、Taskonomy、WSL、CLIP、SimCLR 等多种监督与自监督模型

统计评估:稳健性与显著性并重

所有结果均通过双侧 t 检验,并采用 Benjamini–Hochberg FDR 方法进行多重比较校正(P=0.05)。在 ROI 分析中,使用“与其他 7 名参与者平均脑活动的相关性”作为噪声上限,确保模型性能不被过度夸大。

2.结果与证据链

研究的结果部分构建了三条清晰的证据链,分别对应于 LLM 嵌入与脑表征的对齐机制、语境整合的关键作用,以及视觉模型的训练优势。

LLM 嵌入与脑表征对齐

RSA 搜索灯分析显示,MPNet 嵌入与腹侧、外侧、顶叶高级视觉区的脑活动显著相关。

编码模型成功预测了大范围体素反应,其性能接近跨被试一致性上限。

通过人物、地点、食物等句子对比,重现了 FFA、OFA、EBA、PPA、OPA 等经典选择性脑区的调谐模式。

解码模型从脑活动重建出接近目标的自然语言字幕,验证了嵌入空间的可逆性。

《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致-AI.x社区

图1|LLM嵌入的映射捕获了对自然场景的视觉反应。

《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致-AI.x社区

图2 |基于LLM的大脑活动线性预测和解码。

超越词/类的信息整合

类别词嵌入优于多热标签与多数词向量,但仍显著不及整句嵌入。

整句嵌入在所有 ROI 中优于名词/动词子集(EVC 中名词例外),形容词/副词/介词贡献较低。

整句嵌入显著优于逐词平均(无论是 LLM、fastText 还是GloVe),表明语境整合是对齐的关键。

打乱词序后嵌入仍与原句高度相关,说明对齐更多由语义而非句法驱动。

多种 Sentence-Transformers 模型与 MPNet 表现相近,验证了方法的普适性。

《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致-AI.x社区

图3| LLM与视觉诱发的大脑活动的匹配源于它们整合场景字幕中包含的复杂信息的能力。

像素到 LLM 的视觉模型

LLM-trained RCNN 的脑对齐度显著优于其训练目标(原始嵌入),说明模型保留了字幕未显式包含的视觉信息。

在严格同构对照下(架构、数据、初始化一致),LLM 目标训练显著优于类别目标训练;该结果在 ResNet50 上复现。

LLM-trained RCNN 可线性读出类别标签,而类别训练网络难以读出 LLM 嵌入,表明 LLM 表征更具语义覆盖力。

在腹侧与顶叶 ROI 中,LLM-trained RCNN 压制全部强基线模型;在外侧 ROI 几近全胜,且训练仅用约 48,000 张图像。

《自然》期刊:大脑看世界的方式,竟与语言模型惊人一致-AI.x社区

图4|LLM训练的深度递归卷积网络在预测大脑活动方面优于其他模型。

3.语言模型为何能“读懂”大脑

这项研究之所以令人震撼,不仅因为它揭示了语言模型与人脑视觉表征之间的高度一致性,更因为它触及了一个深层次的问题:我们的大脑究竟是如何理解世界的?而语言模型,又是如何在没有视觉经验的前提下,构建出与人类视觉系统高度契合的语义空间?

答案的关键在于“世界统计”与“语境整合”。大型语言模型通过海量文本训练,学会了捕捉词与词之间的关系、句子与场景之间的逻辑,以及人类描述世界的方式。这种语义编码方式,恰好与大脑在处理视觉场景时的抽象组织方式相契合。我们的大脑并不是孤立地识别物体,而是在构建一个语义网络——一个与语言模型处理句子时极为相似的过程。

更重要的是,LLM 的嵌入不仅能捕捉类别信息,还能整合物体的共现关系、空间位置、场景语法甚至动作暗示。这种统一的表示能力,使得它不仅是一个语言工具,更是一个潜在的“认知中介”。它可以将神经科学中分散的发现——如物体共现、典型位置、场景类别等——整合到一个可计算、可操作的高维空间中,为视觉神经科学提供了一个前所未有的量化框架。

当然,这种对齐并不意味着视觉表征具备语言的句法结构。研究发现,即使打乱字幕的词序,嵌入与脑活动的对齐度仍然很高。这说明大脑与 LLM 的对齐更多是基于语义和世界知识,而非语言的递归性或语法规则。这也提醒我们,在构建跨模态模型时,应关注语义整合而非语言形式。

一个令人振奋的启示是:以 LLM 嵌入为训练目标的视觉模型,在数据量远小于传统模型的情况下,依然能学得更接近人脑的表征。这表明强语义目标可能比海量数据更重要。虽然 LLM 本身是通过大规模文本训练得到的,其“语义密度”远高于传统的类别标签,这是否应计入总数据量仍是一个开放问题。但无论如何,这种训练方式为数据效率提供了新的思路。

更远的前景是跨模态与跨物种的应用。如果视觉和听觉系统都能投射到一个类似的 LLM 式语义空间,那么这个空间就可以作为“公共交换码”,实现感知系统之间的信息融合。甚至在没有语言系统的物种中,如猕猴或其他哺乳动物,也可能通过这种语义空间进行脑活动的预测与解码。这不仅拓展了神经科学的研究边界,也为构建更通用的人工智能系统提供了理论支撑。

4.从解释到扩展

尽管成果令人鼓舞,但这项研究也面临一些挑战与开放问题。

首先是可解释性。虽然我们知道 LLM 嵌入与脑活动高度相关,但具体哪些嵌入维度对应哪些脑区,仍不清楚。这需要将解释型AI 与神经科学的可解释性方法结合起来,构建更透明的模型。

其次是任务范式的影响。NSD 使用的是连续识别任务,被试可能在观看图像时进行内部“自我字幕化”,这可能增强了语言模型的对齐效果。未来需要在其他任务设置下验证这种对齐是否依然成立。

还有一个值得注意的问题是语序与句法结构。研究发现,简单字幕的词序不敏感,但这不代表复杂句子也如此。我们需要扩大语料范围,并进行更系统的句法操纵,探索语言结构在对齐中的作用。

在监督信号选择方面,语言监督(如 LLM 嵌入)与类别监督、对比学习等目标之间的系统权衡仍需深入研究。不同目标在脑对齐度、数据效率、泛化能力上的表现可能差异巨大。

最后是广泛适配的问题。这套方法是否能推广到其他物种、其他感觉通道(如听觉、触觉),以及更复杂的跨模态认知任务?这是未来 NeuroAI 研究的重要方向,也可能是我们真正理解“智能”的关键一步。

这项研究不是终点,而是一个起点。它让我们看到了语言模型不仅能理解语言,也能理解视觉,甚至能理解大脑。而我们也许正站在一个新的认知科学与人工智能融合时代的门槛上。

参考资料:​​​https://doi.org/10.1038/s42256-025-01072-0​

本文转载自​​波动智能​​,作者:FlerkenS


已于2025-8-15 11:00:53修改
收藏
回复
举报
回复
相关推荐