空间感知的VLM模型;VLM的GUI网页智能体;数学视频QA基准;长视频计数基准
RoboRefer:TowardsSpatialReferringwithReasoninginVisionLanguageModelsforRobotics20250604|BUAA,PKU,BAAI🔺32http:arxiv.orgabs2506.04308v1https:huggingface.copapers2506.04308https:zhoues.github.ioRoboRefer研究背景与意义问题定义与现状空间指称是机器人理解并与三维物理世界交互的基础能力。尽管现有预训练视觉语言模型(VLMs)在二维视觉任务上表现优异,但它们在复杂三维场景的...