
智能体的能力坐标系:一览复旦、清华、港大、上海 AI 实验室联合发布的OS-MAP的评估逻辑与实验洞察
在AI应用不断深入现实世界场景的当下,一个新问题开始浮出水面:计算机使用智能体,到底能为我们承担多少真正的工作?面对日益复杂的桌面应用操作、人机协同任务,以及跨应用的使用习惯,传统AI评估范式已显力不从心。
过去,AI智能体多集中于网页操作、自然语言生成或静态任务执行,然而随着VLM(视觉语言模型)与多模态技术的进步,系统开始具备理解界面元素、执行复合操作的能力。这类“计算机使用智能体”正在成为下一代人机协作工具的关键构件,应用范围从办公自动化到个人助手,再到RPA与低代码开发,甚至扩展至教育、创意和安全领域。
然而,现有评测基准存在明显短板。大多数基准要么过于抽象,无法反映真实操作难度;要么局限于特定平台或单一任务类型,难以评估模型泛化能力与任务协同水平。更重要的是,它们缺乏对“自动化层级”的系统建模,无法揭示智能体在真实桌面场景中逐步接管任务所面临的复杂挑战。
7 月 28 日,复旦大学、上海AI实验室、清华大学和香港大学的联合研发团队提出了一个看似简单却结构精妙的关键问题:智能体,能在“广度”(不同任务和应用)与“深度”(自动化层级)上走多远?这是一个兼顾扩展性与精细度的评估范式。
为回答这一问题,研究团队构建了OS-MAP框架——一个两维度的评估体系。第一维是自动化层级,从简单的原子执行(L1)到复杂编排(L4),清晰刻画任务结构与人机分工的演进过程;第二维是泛化范围,评估模型在应用之间、任务类别之间的适应能力与稳健性。研究者将这一框架具体化为一套完整基准:涵盖15款真实桌面应用、416项任务,涵盖从文件管理到系统设置等典型用户场景。
图1:OS-MAP定性评估矩阵,总结了不同类型的代理在两个维度上的表现。通用模型显示出很强的泛化能力,而场景专家擅长特定任务。主流计算机使用代理旨在平衡两者,但仍面临重大挑战。
在这一广泛覆盖之下,团队不仅执行了系统性的基线模型评估,还对失败案例进行了深入分析,包括指令误读、目标识别错位、回退策略缺失、工具使用能力不足等。这些分析不仅揭示了当前VLM模型在感知、逻辑推理和多步执行方面的结构性瓶颈,也为未来模型设计与任务分解机制的改进提供了宝贵洞察。
这项研发工作由来自中国大陆和香港的顶尖AI机构联合完成。包括复旦大学、上海AI实验室、清华大学和香港大学的多位研究者携手合作,他们是Xuetian Chen, Yinghao Chen, Xinfeng Yuan, Zhuo Peng, Lu Chen, Yuekeng Li, Zhoujia Zhang, Yingqian Huang, Leyan Huang, Jiaqing Liang, Tianbao Xie, Zhiyong Wu, Qiushi Sun, Biqing Qi, Bowen Zhou,团队成员横跨视觉理解、语言建模、人机交互等多个领域。在开源精神的驱动下,他们还将全部代码、数据集、实验环境和任务脚本发布至GitHub(OS-Copilot/OS-Map),为学术界和产业界进一步推动桌面智能体发展提供了坚实基础。
论文链接:https://arxiv.org/pdf/2507.19132
项目地址:https://github.com/OS-Copilot/OS-Map
1.评估框架设计
图2:OS-MAP构建在为日常计算机任务设计的可执行桌面环境上,集成了一套应用程序和工具。它通过处理任务初始化和成功验证为可靠评估提供了基础设施。代理通过GUI操作自主交互,由指令和屏幕截图感知引导。
从浅到深:自动化层级的刻度尺
OS-MAP 所提出的自动化分级,是一次真正“贴近人类操作逻辑”的建模努力。它将所有智能体执行的任务操作划分为四个层级,每一层的挑战都愈加严峻。
L1 原子执行: 这是最基本的层级,涉及单步 GUI 操作,比如点击按钮、输入文本、关闭窗口等。这一层主要考验的是模型对界面元素的感知与动作映射能力。虽简单,却是构建更高层执行能力的地基。
L2 简单规划: 这里模型需要具备基本的任务规划能力——能够将多步操作串联起来完成一个目标,但不会遇到动态条件或分支。例如,打开文件、复制内容、粘贴至新窗口。这一层开始引入逻辑链条,但仍在静态路径中活动。
L3 干扰适应: 现实世界里操作界面并不总是“干净利落”,弹窗、全屏状态、失效路径等干扰接踵而至。此时模型需具备弹性执行能力,例如提前关闭弹窗、回退路径、处理意外跳转。这是对感知、判断与回退策略的第一次综合考验。
L4 复杂编排: 这是一切高阶桌面操作的“试炼场”。任务不仅跨应用,还需进行任务分解、依赖管理与工具协同。例如,打开邮件查找信息后,再填写表单并进行数据计算。如果说前三层是“手、眼、脚”的协调练习,L4 则是“意识”的登场,它要求智能体能进行真正意义上的上下文融合与策略性操作。
从 L1 到 L4,构成了一条清晰、逐级递进的能力曲线。而真正棘手的是,大多数现有智能体,在 L3 和 L4 上几乎全军覆没。这不只是功能缺失,更暴露出智能架构在复杂任务结构下的系统性缺陷。
泛化范围:能力的广阔边界
除了纵深的自动化层级,OS-MAP 还从“横向广度”进行能力建模,评估智能体在泛化上的适应能力。
应用内泛化关注同一桌面应用中不同任务的处理能力——例如,在 Chrome 中既要搜索信息,又要清理浏览记录。而跨应用泛化则引入应用间的语境转换,如从浏览器跳转到文件管理器再完成上传任务。这一维度对应的是“习惯迁移”和“语境切换”的能力。
同时,OS-MAP 涵盖了极为多样的任务类型,从系统设置、文件操作、网页浏览、表单填写到邮箱收发,真实反映了现代桌面使用的日常图谱。这种“任务分布广度”的设置不仅检验模型的知识能力,更考察其语义理解和界面感知的通用性。
OS-MAP 的两维构架——纵向层级+横向泛化,构成了覆盖“深度”和“广度”的能力雷达,也正是这个框架让其成为对计算机使用智能体的最具实践意义的评估基准。
图3:特定任务的自动化级别演示:每天旋转壁纸。从用户的角度来看,随着自动化水平的提高,实现同样的目标需要增加代理责任并减少用户参与。任务执行变得更长、更复杂,反映了人类和智能体之间分工的转变。
2.OS-MAP 基准构建
设计框架只是一部分,更关键的是如何将它落地成具备可执行性的评测系统。这就是 OS-MAP 基准的工程之美。
首先任务来源并非虚构,而是抽象自真实桌面使用场景,最终构建了416项明确可复现的任务,覆盖15款常见应用,确保覆盖面既广又细。任务分类涵盖浏览、文件管理、系统控制、文档编辑等,是写字楼和居家场景的真实缩影。
其次,实验环境采用了动态桌面仿真系统,能精确模拟操作界面与行为反馈。每项任务配备原子动作接口,允许模型基于鼠标点击、键盘输入等基本操作完成流程,配合评测脚本实现标准化记录与对比分析。
评估机制方面,研究者引入了明确的成功率定义——即任务是否按照目标完成,而不仅仅是是否做了某些动作。这点至关重要,因为它明确将“行为”与“结果”区分开来。此外,系统还记录了失败案例的分类与原因,这为后续的结构性改进提供了宝贵素材。
OS-MAP 不只是一个任务集合,更是一个具备高度复现性、扩展性和诊断能力的评测平台。它打通了从场景抽象、动作建模到能力分析的全链条,为构建真正“能用、可控、有反馈”的智能体提供了可操作范式。
图4:OS-MAP基准测试中需求层次结构上的任务分配。
3.实验设置与基线模型
各路智能体“集结上场”
研究团队一共测试了三类智能体架构。
通用大模型如 GPT-4o、Gemini-2.5-Pro、Claude-3.7-Sonnet,它们拥有强大的语言理解和多模态能力,训练数据广泛,但往往不熟悉桌面操作的“肌肉记忆”。
GUI 专用模型比如 UI-TARS-72B 和 GUI-Actor-7B,则是为桌面交互而生——优化了感知与点击路径,有更高的视觉对齐精度和界面定位能力,但也容易在跨任务逻辑上“迷路”。
混合型架构(如 OS-ATLAS、UGround、Aguvis)采用了“规划-执行”的分工,前端用 GPT-4o 等模型做任务规划,后端 GUI agent 执行。这种设计在任务合理性上有所提升,但依然受到原始视觉模型执行力的约束。
怎么评?从成功率到人类对照组
评估指标分为两个主维度。
自动化层级成功率:每个模型在 L1 到 L4 的任务上完成率
整体任务成功率:对 416 项任务的平均完成率
人类参考线:作为“顶配智能体”的对照标准,人类完成率为 71.9%,远高于现有模型
这种设定不仅检验模型的局部能力,还对其在完整任务流程中的“持续表现”打分,相当于把 AI 拉到办公室现场比拼——到底谁才是称职的虚拟助理?
在实际运行中,研究者还需面对多种挑战:
- 部分任务需要高分辨率 GUI 截图和原子操作控制,带来计算资源的压力
- 模型 prompt 设计要针对每个任务进行微调,避免不合规指令和幻觉行为
- 为了实现可复现性,任务环境需严格设定初始状态与反馈机制
这是一场高保真、全链条的操作实测,而不是简单的文本问答。
4.主要实验结果
成绩单来了,谁表现最好?
整体来看,智能体的“战绩”并不乐观。
• GPT-4o 作为通用语言模型,在 L1 执行任务的成功率只有 12.0%,整体仅 1.9%
• Claude 和 InternVL 等模型更为低迷,有些在关键任务上几乎颗粒无收
• Gemini-2.5-Pro 虽表现稍强,在 L2 达到 10.6%,但在 L4 编排任务上仍几乎“熄火”
• 最亮眼的是 GUI-Actor-7B 和 UI-TARS-72B,在 L1 GUI 执行任务上接近人类表现(40–48%),但在 L3 和 L4 依然难以突破瓶颈
这也揭示出一个核心问题:当前智能体在表层执行力上已有成效,但缺乏真正的任务理解力与上下文协同能力。
表:OS-MAP上计算机使用代理的成功率。我们展示了每个代理骨干在不同自动化级别的任务上的性能。专有VLM和开源VLM以颜色区分。在规划接地设置中,GPT-4o用作规划模型。
究竟“卡”在哪儿?
研究者对每个自动化层级都进行了失败剖析。
L1 vs. L2 的落差:很多模型能执行单步点击,但一旦涉及多步组合和路径规划,错误率陡升,说明短程逻辑的拼接尚未成熟
L3 适应性缺失:模型无法识别弹窗、全屏等环境干扰,也不具备回退机制。例如无法退出剧场模式导致控件无法访问
L4 是终极难关:任务依赖关系错乱,先填表后查邮件、跳过钱包余额直接交易等“反人类”操作频频发生。更甚者,模型还拒绝使用外部工具,选择凭空计算数学问题——你没看错,是在浏览器里“内心演算”微积分!
最后这一组对比尤其醒目——在人类能完成 71.9% 的桌面任务的前提下,当前最佳模型也只能达到 11.5% 的成功率。这不仅是数量差距,更是能力断层。
5.失败案例深入分析
智能体的失败表征
许多失败,源自智能体无法像人类那样“顺手”完成操作。但更关键的是,它们错的方式非常有代表性,几乎可以归结为两个维度的通病。
首先,是通用性能力缺失。
有些模型完全忽略了操作指令的格式和范围。例如,Claude 竟然尝试执行 OPEN_FILE_EXPLORER 命令,而任务接口只接受原子鼠标键盘操作。这种行为像是把语言模型的直觉硬套到物理操作上——直觉虽强,规则却不合。
另一个典型通病是幻觉现象:模型“相信”之前的步骤成功执行了,于是在错误状态下继续进行,甚至将系统窗口误认为是网页浏览器,并试图搜索内容。幻觉不是简单的识别错误,更像是“主观编剧”,使整个任务流程误入歧途。
图5-10:每个自动化级别的故障案例,反映了核心能力的瓶颈。
每个层级的“卡点”在哪里?
在 OS-MAP 中,每个自动化层级都有其专属挑战。
L1 层级:GUI 定位问题频发 表面上看,执行一个按钮点击并不难。但研究发现,模型在识别非文本 UI 元素时很容易“翻车”。比如找不到图标、拖拽区域不明确、按钮位置错乱……这都暴露了模型在 GUI 视觉 grounding 上的短板。
L2 层级:规划有思路,却常“跑偏” 模型能制定计划,却容易陷入“相似迷宫”。比如,任务要求搜索 Taylor Swift 的所有专辑,但模型却只搜索了其中一张专辑。此外,对于任务特定约束也常常忽略,比如只清除 YouTube 记录,结果删掉了全部浏览历史。
L3 层级:适应力不足,回退机制缺失 这一层最大的问题在于抗干扰。模型面对弹窗时可能不知所措,面对全屏模式时无法退出以访问菜单,甚至会在剧场模式下隐藏控制条导致任务无法继续。更严重的是,对当前上下文状态缺乏判断,经常在错误窗口中执行无关操作。
L4 层级:逻辑结构松散,工具调用失败 复杂任务如填写表单前查看邮件、进行交易前查余额等,本应是流程规划的高光时刻。但模型要么顺序错误,要么不调用辅助工具,甚至用内部语言模型“头脑算术”替代实际的网页计算器——可以说是“拼凑式完成任务”,远谈不上策略性执行。
这些失败,不是技术细节,而是能力架构的问题。它们揭示的是现有模型还没有构建起对桌面环境的“动态心智”。
放在整个研究生态中,OS-MAP 有何独特之处?
为了理解 OS-MAP 的位置,我们需要横向看看业界已有的基准。
过去的桌面交互评测,多集中在静态任务如网页操作、命令行执行等。但 OS-MAP 提出了一个前所未有的完整视角:基于真实桌面环境、细致分级的自动化层次,并结合任务广度,从操作“颗粒度”到任务“组织方式”,均有系统设计。这种两维框架,前所未见。
更进一步,OS-MAP 还与当前智能体感知与规划技术接轨。例如,它涵盖了多模态识别(GUI视觉)、语言建模、上下文记忆、环境适应、层级规划等多个子系统,这恰是新一代“agentic AI”的核心能力框架。
至于能力分级,本研究参考了自动驾驶的分级方法,融合了 AGI 能力广度评估体系,最终构建出一个可量化、可对照、可复现的任务等级标准。这种方法论,使 OS-MAP 成为评估“通用桌面助手”性能的行业标杆。
6.未来方向
真实桌面世界,不是虚构的沙盒
尽管 OS-MAP 已覆盖 416 项任务、15 款应用,其任务设计依然面临一大挑战,即如何持续扩展任务数量与类型,同时保持评测的科学性与可控性?
这类任务往往需要精准设定初始状态,比如文件目录结构、窗口排列、菜单位置等。要完成这样的任务设计,研究团队不得不进行大量“反向工程”,将真实任务转化为仿真环境。这就像把复杂的办公桌面一刀刀切割成实验用场景——耗时耗力,也难以快速扩展。
其次,评测环境的现实感依旧受限。虽然当前 OS-MAP 环境支持模拟界面、操作反馈等元素,但真实桌面世界是高度个性化的——每位用户有不同的账户信息、浏览习惯、内容定制。现有的评测体系难以捕捉这种“人机共生”的复杂动态,也无法直接应用于如“文件命名习惯”或“多账户跳转”等真实任务中。
还有一个不容忽视的问题:个性化场景的隐私性与可复制性冲突。许多高价值任务(例如微信文件共享、公司系统登录)都牵涉用户隐私,难以被广泛收录为开放基准。如何在安全、可复现的框架下设计“贴近现实”的任务,依然是一道技术与伦理的双重考题。
让智能体“更像人类助手”
突破以上限制,研究者提出了几个未来的发展重点。
首先是引入强化学习与环境奖励机制。现阶段的智能体多依赖监督学习,但面对“弹窗干扰”“路径失败”等动态挑战时,强化学习可以成为抗干扰与恢复策略的训练利器。如果模型能根据环境反馈调整行为,那么它的适应性将更上一层楼。
其次是层级规划机制的深入。OS-MAP 已在任务结构上实现分层评估,但智能体内部的规划机制仍偏扁平。未来设计中,可以考虑类似任务树、依赖图等结构,让智能体能像人类一样“计划并审查”自己每一步任务路径。
最后,是多智能体系统的协同潜力。想象一个智能桌面助手由多个模块组成:一个感知模块识别界面元素,一个执行模块负责点击,一个策略模块管理任务进度……如此“分工协作”将比单模型执行更高效、更稳健,也是大规模应用时的可扩展方案。(END)
参考资料:https://arxiv.org/pdf/2507.19132
本文转载自波动智能,作者:FlerkenS
