
李飞飞:通过「空间智能」重构世界
在人工智能的持续演进中,多模态大语言模型(MLLMs)已成为核心研究领域之一,其在整合语言和视觉信息方面的潜力备受关注。李飞飞、谢赛宁团队的最新研究成果犹如一颗璀璨的新星,照亮了 MLLM 在空间智能领域的探索之路,引发了学界和业界的广泛关注。本文将深入剖析该团队的研究,详细阐述 MLLM 在空间智能方面的突破与挑战,一同探索 MLLMs 在视觉空间智能方面的进展与难题。
1.引言视觉空间智能
在人类的日常生活中,视觉空间智能起着极为关键的作用。无论是在家中规划家具摆放,还是在工作场所导航寻路,我们都在不断运用这一能力。人类能够凭借视觉感知和记忆,快速构建空间布局,并据此做出准确的判断和决策。
对于人工智能而言,尤其是多模态大语言模型,视觉空间智能的发展却面临诸多挑战。尽管语言模型在文本处理上取得了显著成果,但在理解和处理视觉空间信息方面仍处于探索阶段。这一能力的缺失限制了 MLLMs 在许多实际应用中的表现,如机器人控制、自动驾驶和增强现实等领域。
为了填补这一研究空白,本文引入了一个全新的基准测试——VSI-Bench。它基于大量真实的室内场景视频,构建了超过 5000 个问题-答案对,旨在全面评估 MLLMs 的视觉空间智能。这一基准测试的出现,为 MLLMs 在该领域的研究提供了重要的工具和标准,开启了深入探究的大门。
2.视觉空间智能内涵、范畴与关键要素解析
定义与范围的精准界定
本文聚焦于视觉空间智能在现实世界环境中的应用,区别于传统的抽象空间认知测试。在实际场景中,如家庭、办公室和工厂等,视觉空间智能表现为对空间关系的准确感知和有效操作。例如,在家庭场景中,能够判断家具之间的合理间距;在办公室里,能快速找到所需物品的位置;在工厂中,可规划高效的物料运输路径。这种基于现实场景的定义,使得研究更具实际意义和应用价值。比如你要去宜家买家具,当你看到一个心仪的衣柜时你会在脑海里想一下你的卧室,放到哪里更合适,这时候我们会在脑海里重构一下自己的卧室空间,回忆一下房间里的物体、他们的位置以及大概的大小,判断下新买的衣柜应该放到哪里。
能力分类的深度剖析
视觉空间智能涵盖多个关键能力领域(见图 2)。视觉感知是基础,要求模型能够从视频中准确识别各类物体,这涉及到对物体形状、颜色、纹理等特征的提取和识别。例如,在复杂的室内视频中,模型需分辨出桌椅、电器等不同物体。
语言智能则负责理解与空间相关的语言描述,并将其与视觉信息相结合。当遇到“房间里有几张椅子”这样的问题时,模型要理解问题含义,并在视频中找到对应的答案。
时间处理能力使模型能够追踪物体在视频中的时间动态变化,构建其运动轨迹。比如在监控视频中,模型可记录人员或物体的移动路径。
空间推理能力是核心,包括关系推理和自我中心-客体中心转换。关系推理要求模型依据距离和方向判断物体间的空间关系,如确定书架与窗户的相对位置。自我中心-客体中心转换则是在以自身视角和以环境为中心的视角之间切换,这类似于人类在空间中定位自己和周围物体的过程。
3.VSI-Bench创新基准测试的构建与解析
概述:架构与任务体系
VSI-Bench 由 288 个真实视频生成的 5000 多个问题-答案对组成,数据来源于 ScanNet、ScanNet++ 和 ARKitScenes 等权威数据集,涵盖多种环境和地理区域。其任务分为配置、测量估计和时空三大类共八个任务(见图 3)。
配置任务中的物体计数,考验模型对视频中特定物体数量的准确统计能力;相对距离任务要求模型判断物体间的远近关系;相对方向任务促使模型确定物体的方位;路线规划任务模拟机器人导航,需要模型规划出从起点到终点的合理路径。
测量估计任务中,物体大小估计要求模型根据视频判断物体的尺寸;房间大小估计需模型估算出整个房间的面积;绝对距离估计则是精确计算两个物体之间的实际距离。
时空任务的外观顺序,要求模型记住物体在视频中首次出现的先后顺序,测试其对空间信息的记忆能力。
基准测试
数据收集与统一的精细操作:从不同数据集中选取样本后,对视频进行标准化处理。ScanNet 视频转换为 24 FPS,ScanNet++和 ARKitScenes 视频子采样到 30 FPS,并统一分辨率为 640 × 480 像素。同时,对不同数据集的注释结构进行统一,提取包含数据集、视频路径、房间大小等关键信息的元信息,并精心筛选和重映射物体类别,确保数据的一致性和有效性。
问题-答案生成的科学方法:除路线规划任务采用人工标注外,其他任务利用元信息和问题模板自动生成问题-答案对。例如物体计数的问题模板为“ How many {object} are in this room? ”,通过替换 {object} 生成具体问题。在数值答案任务中,合理生成选择题选项,并对每个场景和任务的问题数量进行子采样,保证数据集的平衡性。
人工循环质量审查的严格把控:在数据集收集和问题-答案对生成阶段,均实施人工审查。收集时过滤掉 3D 网格重建不完全的场景,生成后手动验证元信息正确性,尤其关注物体数量。在问题-答案对审查中,人工评估人员标记错误或模糊的问题,研究团队据此追溯错误源并采取纠正措施,如删除问题样本、修改元信息或问题模板等,经过多次迭代确保基准测试质量。
4. VSI-Bench 上的评估模型性能的全面审视
评估设置
基准模型的广泛涵盖:全面评估了 15 个涵盖不同家族、参数规模和训练方法的视频支持 MLLMs,包括专有模型如 Gemini1.5 和 GPT-4o,以及开源模型如 InternVL2、ViLA 等,确保评估的全面性和代表性。
指标设计的合理考量:根据答案类型采用不同评估指标。选择题答案(MCA)任务使用准确率(ACC),基于精确匹配(可含模糊匹配)计算;数值答案(NA)任务采用平均相对准确率(MRA),通过考虑相对误差率来衡量模型预测的准确性,以适应不同类型问题的评估需求。
基线设置的有效参照:设置Chance Level (Random) 作为 MCA 任务随机选择答案的准确率基线,Chance Level (Frequency) 为选择每个任务最频繁答案的准确率基线,为模型性能评估提供清晰的参照标准。
结果分析
人类水平与模型的对比洞察:人类评估者在基准测试中平均准确率达 79%,在配置和时空任务上表现卓越,准确率在 94% - 100%之间,体现了人类在视觉空间智能方面的优势。在测量任务中,人类与最佳 MLLM 的差距相对较小,表明 MLLMs 在定量估计方面有一定潜力,但仍需提升。
专有与开源模型的差异解读:专有模型 Gemini1.5 Pro 表现突出,虽与人类有差距,但远超基线水平,在绝对距离和房间大小估计等任务中接近人类表现,得益于其强大的研发资源和架构。开源模型中,部分顶级模型如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B 有竞争力,仅落后 Gemini1.5 Pro 4%-5%,但多数开源模型(7/12)低于基线水平,反映出开源模型在视觉空间智能方面的局限性。
视觉信息影响的显著发现:对比视觉启用、禁用和基线水平结果发现,视频对任务至关重要,视觉启用模型性能优于禁用模型,而禁用模型低于基线水平。在绝对距离估计、路线规划和相对方向等任务中,MLLMs 即使有视觉信息也难以超越基线,凸显这些任务的难度。
5.MLLMs 的语言空间推理机制探究与瓶颈剖析
通过自我解释揭示推理过程
案例研究的深刻启示:以 Gemini1.5 Pro 为例,在成功案例中,模型展示出较强的视频理解和语言推理能力,能准确描述视频信息并构建合理推理步骤,如在相对方向任务中正确判断物体方位。但在错误案例中,常出现自我中心 - 客体中心转换和关系推理错误,表明模型在复杂空间推理上存在不足。
错误类型的详细分析:对 Gemini1.5 Pro 在 VSI - Bench(tiny)上的错误分类分析发现,约 71%的错误源于空间推理能力缺陷,其他包括视觉感知、语言智能和自我中心-客体中心转换错误,但空间推理错误占主导,成为 MLLM 性能提升的关键瓶颈。
CoT 方法
研究三种语言提示技术【零样本思维链(CoT)、自一致性 CoT 和思维树(ToT)】发现,它们在 VSI-Bench 上平均导致性能下降。虽在部分任务有轻微提升,但在房间大小和物体大小等任务中大幅下降,说明在视觉空间推理任务中,单纯依靠语言提示技术提升模型性能不可行,与传统语言推理任务有显著差异。
6.创新方法与效果评估MLLMs 的视觉空间记忆与认知地图
通过认知地图探索空间记忆
认知地图生成的独特方式:提示 Gemini1.5 Pro 根据视频在 10×10 网格中预测物体中心位置生成认知地图(见图 10),模拟人类构建空间认知的过程,以探究模型如何在内部表示空间信息。
局部空间意识的精准评估:通过计算认知地图中物体间欧几里得距离并与真实地图比较,发现 MLLMs 定位相邻物体准确率达 64%,表明有一定局部空间意识。但随着物体距离增加准确率下降,说明模型构建全局空间模型困难,多形成局部世界模型(见图 11)。
利用认知地图提升距离推理能力的效果
实验表明,让 Gemini1.5 Pro 先生成认知地图再回答相对距离问题,准确率提高 10%(见表 3)。这显示认知地图能辅助模型进行更准确的距离推理,为提升 MLLMs 视觉空间智能提供了新途径。
7.相关工作
具有视觉空间意识的 MLLMs
近年来,MLLMs 借助 LLMs 的语言和推理能力及视觉编码器的特征提取能力,在视觉理解上取得进展。但在应用于现实世界视觉空间任务时仍面临诸多挑战,如准确感知和理解空间信息。本文与以往关注 2D 图像或纯语言的研究不同,采用真实视频评估模型,更贴合实际应用场景。
MLLMs 在视频上的基准测试
随着 MLLMs 在静态图像任务的出色表现,其视频理解能力评估受关注。已有 Video-MME、EgoSchema 和 OpenEQA 等基准测试,但多侧重内容级理解,缺乏 3D 空间考虑。本文的 VSI-Bench 填补了这一空白,为研究 MLLMs 视觉空间能力提供了重要工具。
8.讨论与未来工作
通过 VSI-Bench 对 MLLMs 的研究发现,其在视觉空间智能方面有优势也有瓶颈。虽在感知、时间处理和语言能力上有表现,但空间推理能力尤其是自我中心-客体中心转换和关系推理能力亟待提高。
当前语言提示方法对空间推理效果不佳,但认知地图为提升空间距离推理能力带来希望。未来可从特定任务微调、开发空间推理自监督学习目标和设计视觉空间提示技术等方向努力,推动 MLLMs 在视觉空间领域取得更大突破,为人工智能发展注入新动力。
论文地址:https://arxiv.org/pdf/2412.14171
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
代码地址:
https://github.com/vision-x-nyu/thinking-in-space
原文链接:
https://www.yuque.com/u21774036/qnmlr1/ecqfh7gtbquvvwk5?#《李飞飞:通过「空间智能」重构世界》
本文转载自AIGC前沿技术追踪,作者: 爱读论文的吴彦祖
