
空间感知的VLM模型;VLM的GUI网页智能体;数学视频QA基准;长视频计数基准
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics
2025-06-04|BUAA, PKU, BAAI|🔺32
http://arxiv.org/abs/2506.04308v1
https://huggingface.co/papers/2506.04308
https://zhoues.github.io/RoboRefer/
研究背景与意义
- 问题定义与现状
空间指称是机器人理解并与三维物理世界交互的基础能力。尽管现有预训练视觉语言模型(VLMs)在二维视觉任务上表现优异,但它们在复杂三维场景的空间理解和动态推理方面仍存在显著不足,尤其是在处理多步骤空间推理时能力有限。
- 挑战与目标
当前方法通常依赖昂贵的三维重建或将深度视为二维图像输入,导致模态干扰和性能下降。此外,缺乏大规模支持多步骤空间推理的数据集,限制了模型的推理能力和泛化能力。本研究旨在构建一个3D感知的视觉语言模1型,能够实现精准的单步空间理解与泛化强的多步骤空间推理,推动机器人在复杂环境中的高效空间指称。
研究方法与创新
- 模型架构设计
RoboRefer采用独立的RGB和深度编码器,避免了模态干扰问题,且深度编码器通过监督微调(SFT)专门强化空间感知能力。此设计保证了预训练图像编码器的稳定性,同时提升了对深度信息的利用效率。
- 训练策略创新
采用两阶段训练:
a.监督微调(SFT),结合大规模RefSpatial数据集,强化模型的单步空间理解能力,并通过显式的多步骤推理注释提供初步的推理能力。
b.强化微调(RFT),引入基于多步骤推理过程的度量敏感奖励函数,显著提升模型对复杂空间指称任务的推理精度和泛化能力。
- 数据集构建
RefSpatial数据集融合了2D网络图像、3D实体视频和模拟环境数据,涵盖31种丰富的空间关系,支持单步及多步骤空间推理。该数据集不仅规模庞大(2.5M样本,20M问答对),还包含详细的推理过程注释,填补了现有数据集在多步骤空间指称任务上的空白。
- 理论基础与优势
通过分离编码器和分阶段训练策略,有效解决了模态干扰和推理泛化难题。度量敏感的奖励设计使模型能够在推理过程中逐步优化中间步骤的准确性,提升了复杂空间指称的整体性能。
实验设计与结果分析
- 实验设计
评估涵盖单步空间理解(CV-Bench、BLINK等)、多步骤空间指称(RefSpatial-Bench)以及机器人操作和导航任务。对比了多种最新视觉语言模型和空间专家模型,验证了RoboRefer在不同任务和输入模态(RGB与RGB-D)下的表现。
- 关键结果
a.SFT阶段的RoboRefer在单步空间理解任务中达到了89.6%的平均成功率,超越了多项现有顶尖模型。
b.RFT阶段进一步提升性能,在多步骤空间指称的RefSpatial-Bench上,平均准确率领先第二名Gemini-2.5-Pro达17.4%。
c.在未见过的空间关系组合上,RFT模型表现优于SFT,显示出更强的泛化能力。
d.机器人实地测试中,RoboRefer成功执行复杂的空间指称任务,实现了动态环境下的精准操控和导航,且响应速度快,执行效率高。
- 统计与多场景表现
实验覆盖室内外多样场景,涉及多机器人平台(UR5机械臂、G1人形机器人),结果显示模型具有良好的跨场景和跨任务适应性,且深度信息的引入显著提升了三维空间理解能力。
结论与展望
- 贡献总结
本文提出了RoboRefer——首个结合独立深度编码器及强化微调的3D感知视觉语言模型,实现了从精准单步空间理解到泛化多步骤空间推理的跨越。构建了大规模高质量的RefSpatial数据集及相应基准测试,推动了空间指称领域的数据资源发展。实验充分验证了方法的有效性及其在机器人实际任务中的应用潜力。
- 局限性分析
尽管取得显著进展,模型在极端复杂场景和实时推理速度上仍有提升空间。数据集虽大,但仍需扩展更多样化的环境和任务类型以增强泛化。强化学习阶段计算资源需求较高,限制了更大模型的训练。
- 未来展望
未来研究可探索更高效的多模态融合机制和轻量级推理架构,以支持实时复杂环境下的空间指称。扩展数据集至更多实际应用场景,结合多传感器信息融合,提升模型的鲁棒性和适应性。同时,进一步深化对多步骤空间推理机制的理解,推动机器人智能交互能力迈向更高水平。
Surfer-H Meets Holo1: Cost-Efficient Web Agent Powered by Open Weights
2025-06-03|H, Alphabetical|🔺27
http://arxiv.org/abs/2506.02865v1
https://huggingface.co/papers/2506.02865
https://www.hcompany.ai/
研究背景与意义
- 问题定义与现状概述:当前大型语言模型(LLMs)在推理和问题解决方面表现卓越,但受限于静态预训练数据,无法实时执行动作或获取最新信息,限制了其在动态网络环境中的应用能力。
- 挑战指出:传统增强LLMs的工具使用能力依赖于预定义接口,扩展性受限;而直接通过图形用户界面(GUI)与软件交互的新范式尚面临复杂界面元素定位和任务执行的挑战。
- 目标阐明:本文旨在开发一个成本效益高且通用的视觉语言模型(VLM)驱动的网页代智能体urfer-H,结合新颖的Holo1模型和WebClick基准,实现高效、准确的网页与信息提取,推动智能代理在真实网络环境中的实用性。
研究方法与创新
- 技术架构描述:Surfer-H由策略模块(policy)、定位器(localizer)和验证器(validator)三部分组成,协同作用于网页截图,实现动作决策、界面元素定位及答案验证,支持多轮交互和反馈机制。
- 创新点突出:
a.Holo1模型家族:专为网页导航和信息提取任务设计的轻量级VLM,融合多样化训练数据(真实网页、合成界面、代理行为轨迹等),实现跨界面泛化和精确定位。
b.多模态训练策略:结合视觉、语言与行为轨迹数据,采用离线强化学习和行为克隆,提升模型对复杂网页状态的理解和决策能力。
c.WebClick基准:首次引入专门针对网页UI元素定位的公开数据集,涵盖多样化网页和日历等复杂组件,推动定位技术标准化评测。
- 优势解释与对比:
a.Holo1在多个公开及新建基准上超越同规模竞品,兼具性能与成本优势。
b.Surfer-H结合Holo1实现了WebVoyager任务中92.2%的最优准确率,同时保持较低推理成本,优于现有主流系统。
实验设计与结果分析
- 实验设计:
a.在多项UI定位基准(Screenspot系列、GroundUI-Web及WebClick)上评测Holo1不同规模模型,比较同类先进模型表现。
b.在WebVoyager综合任务集上,测试Surfer-H结合不同策略、定位器和验证器模块的性能,统计成功率与推理成本,分析尝试次数对效果的影响。
c.评估模型在不同训练数据组合下的泛化能力,特别是跨域与专域任务的表现差异。
- 结果分析:
a.Holo1-3B与7B在定位准确率上均领先竞品,7B模型表现更优,体现良好扩展性。
b.Surfer-H搭载Holo1策略和GPT-4o验证器,在10次尝试内达成92.2%准确率,成本仅为主流竞品的四分之一,呈现Pareto最优解。
c.纯Holo1驱动的验证器虽然降低成本,但性能有所下降,表明验证任务复杂,需更大模型能力支持。
d.训练包含丰富代理轨迹数据显著提升模型在未见任务上的表现,验证了跨域与专域结合训练的必要性。
结论与展望
- 贡献总结:
a.本文提出的Surfer-H及Holo1模型家族实现了高效、精准的网页代理系统,填补了现有LLM在动态网页交互中的空缺。
b.新引入的WebClick基准为网页UI定位提供了标准化评测工具,促进相关领域研究进步。
c.通过多模态、大规模、多样化训练数据及模块化设计,兼顾了性能和成本,推动智能代理技术向实际应用迈进。
- 局限性分析:
a.验证模块性能仍有提升空间,表明复杂任务的多模态推理和反馈机制需要更强模型支持。
b.训练数据虽丰富,但仍依赖于合成及代理轨迹,真实世界多样性和动态变化可能带来挑战。
- 未来展望:
a.进一步优化验证模块,探索更高效的多模态推理策略,提升整体系统鲁棒性。
b.拓展训练数据覆盖更多实际场景和动态网页,增强模型泛化能力。
c.推动开放源代码与数据集共享,促进社区合作,加速智能网页代理技术的发展与应用普及。
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos
2025-06-05|MBZUAI, UC Merced, Google, ANU, Linköping U|🔺21
http://arxiv.org/abs/2506.05349v1
https://huggingface.co/papers/2506.05349
https://mbzuai-oryx.github.io/VideoMathQA
研究背景与意义
- 问题定义与挑战
传统数学推理研究多集中于静态图像或文本环境,然而视频中数学推理面临独特挑战:需要解析细粒度的视觉信息,准确识别手写或数字文本,并整合分散且非线性出现的语音提示。成功的推理不仅依赖感知能力,更需在丰富且嘈杂的多模态信息流中精准筛选并整合关键上下文细节。
- 现有研究不足
现有数学推理基准多局限于静态图像或文本,缺乏对动态、时序和多模态信息的综合评估。视频问答领域虽有进展,但未针对数学问题的多模态、多步骤推理进行深入探讨,且多依赖合成数据或狭窄任务,缺乏细致推理注释,难以判断模型是否真正理解。
- 研究目标
本文旨在通过引入VideoMathQA基准,系统评估模型在视频中进行跨模态、时序延展的深度数学推理能力。该基准覆盖10个数学领域,视频时长从数秒到数小时,结合视觉、语音和文本信息,设计三大推理场景:直接问题解决、概念迁移和深度教学理解,辅以细粒度推理步骤注释,实现对模型推理过程的精细诊断。
研究方法与创新
- 技术框架
VideoMathQA构建了一个包含420对真实视频-问题对的多模态数学推理数据集。视频涵盖多种教学资源,包括白板讲解、数字幻灯片、动画图表等,问题设计需模型跨越视觉、语音及文本模态,进行多步骤推理。每个问题配备4-10步专家标注的推理轨迹,支持细粒度评估。
- 创新点详解
a.多模态时序推理挑战:视频中数学信息非线性展开,要求模型具备动态视觉理解(高分辨率帧OCR)、语音文本对齐及跨模态联合推理能力,突破传统静态图像或文本基准的局限。
b.三类推理任务设计:涵盖直接观察推理、概念迁移应用和长时多步骤教学理解,全面模拟真实教学场景下的数学思维过程。
c.细粒度推理注释与评估机制:通过专家分阶段标注推理步骤,模型不仅需给出最终答案,更需展现合理的推理路径,支持中间推理质量和错误类型的深入分析。
d.多样化数学领域与视频时长:覆盖几何、统计、拓扑、图论等10大领域,视频长度从10秒至1小时,兼顾短期感知与长期依赖能力评估。
e.严格的视频筛选与标注流程:结合自动筛选与专家人工复核,确保视频内容富含时序动态与多模态信息,问题设计避免依赖单一模态,保证数据质量和挑战性。
- 优势比较
相较于现有视频问答及数学推理基准,VideoMathQA突破了静态与单模态限制,强调多模态信息的时序整合和深层推理,提供了更具挑战性的评测平台和更丰富的推理注释,填补了视频数学推理领域的空白。
实验设计与结果分析
- 实验设置
评测涵盖30款模型,包括5个专有多模态大模型(如Claude-3.7-sonnet、GPT-4o、Gemini系列)及25个开源模型,参数规模从数十亿到数百亿不等。采用多种评估策略:多项选择题(MCQ)、多二元选择(MBin)、链式思维推理(CoT)及步骤级推理质量评估。
- 关键发现
a.模型性能整体较低:所有模型在VideoMathQA上的表现均远低于理想水平,表明视频数学推理的复杂性显著超出现有模型能力。
b.多模态融合与时序推理难点突出:模型常因遗漏关键帧、符号或语音细节而推理失败,显示出对长时序多模态信息整合的不足。
c.模型规模与架构影响显著:总体上,模型规模越大性能越好,尤其是在CoT推理设置中表现更佳;但新颖架构和训练策略能使小模型超越旧大型模型,说明质量与规模同等重要。
d.专有模型与开源模型差距缩小:最新开源模型在多项指标上已接近甚至超越部分专有模型,显示开源生态快速进步。
e.字幕信息提升性能:提供字幕辅助输入显著提升模型理解和推理效果,体现多模态信息互补价值。
f.细粒度推理评估揭示缺陷:步骤级评估显示模型推理过程多存在逻辑跳跃和错误,提示未来改进方向应聚焦推理链条的完整性和准确性。
结论与展望
- 研究贡献总结
VideoMathQA首次系统构建了一个涵盖多模态、多时序、跨领域的数学视频推理基准,设计了三大核心推理任务,配备细致的推理步骤注释和多维度评估指标。通过广泛模型评测,揭示了当前多模态大模型在视频数学推理中的显著不足和挑战。
- 局限性分析
尽管数据集涵盖广泛数学领域与视频类型,但样本总量有限,且标注成本高昂限制了规模扩展。模型评估主要依赖现有公开及专有模型,尚未涵盖所有可能的多模态融合与推理架构。推理步骤注释虽细致,但对复杂推理的自动评估仍存在困难。
- 未来展望
a.数据集扩展与多样化:未来可扩展更多数学领域与教学资源,丰富问题类型,提升数据规模和多样性。
b.模型架构创新:推动设计更高效的多模态时序推理模型,强化长时依赖捕捉与跨模态信息融合。
c.推理解释性与可验证性:加强模型推理链的透明度和可解释性,结合细粒度注释推动自动化推理质量评估。
d.跨学科应用探索:将此类多模态数学推理技术推广至教育辅助、智能辅导及科学研究等领域,促进人工智能与教育教学的深度融合。
综上,VideoMathQA为视频数学推理领域提供了首个系统化、多维度的评测平台,推动了多模态理解与复杂推理技术的发展,未来有望成为推动智能数学教育和科学计算的重要基石。
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
2025-06-05|NJU|🔺19
http://arxiv.org/abs/2506.05328v1
https://huggingface.co/papers/2506.05328
https://av-reasoner.github.io
研究背景与意义
- 研究背景:当前多模态大语言模型(MLLMs)在视频理解领域取得了显著进展,但在精细化任务如计数方面表现依然有限。计数任务要求模型具备精确的时空定位能力,能够跨帧或场景识别并累积目标实例,这对模型的视觉、听觉和语言对齐能力提出了严峻挑战。
- 存在问题:现有计数基准测试多为短视频,查询类型封闭,缺乏线索注释,且多聚焦单一模态,限制了模型综合推理能力的评估。
- 研究意义:提出了CG-AV-Counting,一个涵盖497个长视频、1027个多模态问题及5845条线索注释的计数基准,支持黑盒(端到端)与白盒(推理过程)双重评估,填补了长视频多模态计数评测的空白,推动多模态计数能力的全面提升。
研究方法与创新
- 技术描述:基于Ola-Omni模型,提出AV-Reasoner,通过结合GRPO强化学习算法和课程学习策略,训练模型逐步掌握音视频理解、时空定位及计数能力。训练涵盖多数据集的问答(AVQA)、时空定位(AVTG、ARIG)和计数任务,设计了多样化的可验证奖励函数(格式正确性、IoU、相对MAE等)以引导模型生成结构化且准确的输出。
- 创新点:
a.引入细粒度线索注释,支持白盒评估,提升计数任务的可解释性。
b.设计分阶段课程学习和阶段回顾机制,缓解任务间遗忘,促进技能的稳定迁移和累积。
c.利用强化学习优化模型在多模态计数任务中的推理策略,而非仅依赖标注数据,增强模型的泛化能力。
- 优势解释:该方法突破了传统依赖大量计数标注数据的限制,通过任务相关性的能力迁移和策略优化,显著提升了模型在复杂长视频多模态计数任务中的表现,且具备良好的跨任务适应性和输出格式控制能力。
- 与现有方法对比:相比以往短视频、单模态或无线索注释的基准,CG-AV-Counting提供更丰富的多模态、多目标计数场景,AV-Reasoner在多个音视频理解和计数基准上均实现了领先性能,充分体现了强化学习与课程学习结合的优势。
实验设计与结果分析
- 实验设计:评测涵盖黑盒长视频端到端计数、参考区间计数及白盒推理计数,使用准确率、偏差一计准确率、平均绝对误差、均方根误差及白盒计数评分(结合定位与计数准确性)等多维指标,全面衡量模型性能。
- 结果分析:
a.所有模型在计数任务上均远低于人类水平,表明该任务的挑战性。
b.关闭源模型普遍优于开源模型,Gemini 2.5 Pro/Flash表现最佳,显示多模态融合的潜力。
c.开源音视频模型未必优于视觉单模态模型,原因在于音视频对齐不佳和缺乏针对性训练。
c.AV-Reasoner通过GRPO训练和课程学习显著提升计数准确率和推理质量,尤其在白盒评测中表现出更强的因果解释能力。
e.采用显式推理输出的模型版本在部分任务表现更优,验证了推理过程的透明性对性能的促进作用。
- 统计显著性:提升幅度覆盖多个基准和指标,且通过多轮训练与样本筛选机制保证结果的稳定性和泛化性。
- 多场景表现:模型在涵盖体育、生活记录、幽默、教程等十余类长视频中均表现出较强的适应能力,验证了方法的广泛适用性。
结论与展望
- 总结贡献:本文提出了首个支持多模态长视频计数的细粒度线索基准CG-AV-Counting,设计了结合强化学习与课程学习的AV-Reasoner模型,有效提升了MLLM在复杂计数任务中的性能和解释能力,推动了多模态计数研究向更高精度和更强泛化迈进。
- 局限分析:当前模型在跨域泛化和音视频对齐方面仍存在不足,计数任务中对精确时空定位和多模态融合的需求尚未完全满足,推理输出格式控制仍需进一步优化。
- 未来展望:
a.加强音视频同步与多模态特征融合技术,提升模型对动态环境的感知能力。
b.探索更多样化的训练策略和奖励设计,促进模型推理能力的进一步增强。
c.拓展基准数据集规模和多样性,涵盖更多实际应用场景,推动模型实用化。
d.深入研究模型推理过程的可解释性与可控性,提升模型在实际部署中的可靠性和透明度。
本文转载自AI研究前瞻,作者:胡耀淇
