当AI在测量手机尺寸时,不是依赖像素计算,而是主动寻找显示器作为参考物进行比例换算;面对迷宫导航任务,它像人类一样在图像上绘制辅助线和标记框,动态追踪空间关系。这是蚂蚁技术研究院联合中科院自动化所、香港中文大学开源的ViLaSR-7B模型展现的类人空间推理能力。

这项突破标志着大模型首次跨越了抽象语义理解与具象空间认知的鸿沟,在五大空间推理基准上实现性能跃升,与谷歌Gemini-1.5 Pro旗鼓相当。
长久以来,传统视觉语言模型(LVLM)受困于“视觉转文本”的推理范式:将图像压缩为token序列后交由语言模型处理,导致空间信息在编码阶段大量丢失。当处理迷宫方向判断或多视角物体关联任务时,模型常因混淆空间关系而失败。
OpenAI今年4月发布的o3/o4-mini模型虽通过“Thinking with Images”范式(主动裁剪/旋转图像辅助推理)取得进展,但其闭源特性限制了生态发展。
ViLaSR-7B的创新在于提出“Drawing to Reason in Space”(空间绘图推理)机制,让模型在推理过程中动态绘制边界框、参考线和跨帧标记,引导视觉编码器聚焦关键空间特征。这种边看边画、边画边想的交互模式,模拟了人类解决空间问题时用草图辅助思考的本能行为,显著提升了时空信息的保留效率。
实现这一突破的核心是三阶段训练框架的系统化培养方案:
- 冷启动训练利用合成数据教会模型基础绘图操作(如标注边界框),建立视觉空间认知的“肌肉记忆”;
- 反思拒绝采样阶段引入自我修正机制——模型生成多条推理路径后,筛选出主动修改错误标注的高质量样本进行强化训练,培养“发现并修正误判”的反思能力;
- 强化学习阶段则通过双奖励函数(结果准确性+逻辑合理性)优化操作效率,避免冗余绘图。消融实验证明,移除反思机制会使模型推理步骤减少23%,而缺乏强化学习将导致绘图操作激增。
这一进展恰逢空间智能研究的关键爆发期。李飞飞、谢赛宁团队去年末发布的VSI-Bench基准(涵盖288个真实场景视频、5000+问答对)首次量化了AI的空间认知缺陷:在物体相对方向、距离估计等任务中,15个主流MLLM的**错误率高达71%源于空间推理短板,而非视觉识别或语言理解。
更值得注意的是,研究揭示大模型在空间记忆时仅形成碎片化的局部世界模型而非统一全局认知,且传统语言提示技术(如思维链CoT)反而损害其空间表现——这与语义推理任务形成鲜明对比。上海交大团队今年5月推出的SpatialScore评测体系进一步整合11项数据集,证明当前模型在深度估计、相机运动分析等几何感知任务中仍举步维艰。
ViLaSR-7B的突破不仅是技术里程碑,更是AI理解物理世界的临界点。当模型能主动构建空间心智表征,机器人导航、AR交互、工业检测等场景将迎来质变。随着“绘图推理”范式与VSI-Bench等评估工具的双轮驱动,AI终于开始用人类的视角丈量世界——从识别物体到理解空间,这场感知革命才刚刚开始。