可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估

发布于 2025-8-11 06:20
浏览
0收藏

VeriGUI: Verifiable Long-Chain GUI Dataset

2025-08-06||🔺117

http://arxiv.org/abs/2508.04026v1​​
​​https://huggingface.co/papers/2508.04026​​
​​https://github.com/VeriGUI-Team/VeriGUI

研究背景与意义

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 问题定义与现状概述

当前自主GUI代理的研究已取得初步成果,主要聚焦于短期任务和基于结果的验证,难以满足现实中复杂、长链任务的需求。现有数据集多为短步骤操作,缺乏对多步骤、跨应用复杂流程的支持,且验证方式多为粗粒度的最终结果判断,难以细粒度评估中间步骤的正确性。

  • 挑战与目标阐明

真实GUI任务要求代理具备长链规划、多步骤推理和动态环境适应能力,同时需要高质量、多样化且可验证的长链任务数据集支持训练与评估。本文提出的VeriGUI数据集,旨在填补现有数据集在长链复杂性和子任务级可验证性方面的空白,推动通用GUI代理的发展。

研究方法与创新

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 技术描述VeriGUI构建了一个涵盖桌面和网页环境的长链GUI任务数据集,任务由4-8个相互依赖的子任务组成,每个子任务包含数百个具体GUI操作。数据集支持从任意子任务开始执行,促进多阶段、多策略的探索。
  • 创新点突出

a.长链复杂性:任务设计涵盖跨应用和网页的复杂操作序列,逼近真实工作流的复杂度。

b.子任务级可验证性:不仅验证最终任务结果,还对每个子任务的完成情况进行二元判定,支持细粒度监督和评估。

c.多样化交互动作统一定义:动作空间涵盖点击、输入、拖拽、滚动等多种GUI操作,兼容多平台。

d.结合大语言模型与人工标注:采用多阶段语言模型生成与人类专家审核相结合的方法,确保任务指令的真实性和执行轨迹的高质量。

  • 理论基础与对比相较于现有数据集,VeriGUI在任务长度、验证细粒度和多样性方面均有显著提升,支持更复杂的决策与规划能力开发,突破了传统基于结果的验证局限。

实验设计与结果分析

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 实验设计采用130个网页任务轨迹,评估多种基于不同基础模型的代理,包括闭源深度研究代理、搜索引擎代理、浏览器交互代理及多代理系统。评测指标涵盖任务成功率(SR)、任务完成率(CR)和动作效率(AE),并引入基于GPT-4.1的语义评判确保结果准确性。
  • 结果分析

a.整体表现不佳:所有模型平均任务成功率均低于10%,完成率不超过30%,反映任务的高难度和当前模型在长链规划、复杂推理上的不足。

b.基础模型差异显著:OpenAI-o3和Gemini-2.5-Pro表现相对较好,显示其较强的推理和泛化能力;GPT-4系列表现不及预期,表明高性能模型在复杂GUI任务中仍面临挑战。

c.交互范式影响明显:浏览器交互代理整体优于纯文本搜索代理,说明直接操作界面和利用结构信息对任务完成有显著帮助。

d.领域差异明显:艺术娱乐类任务成功率和完成率最高,因数据结构较为规范;金融、社会政策等领域较难,信息分散且抽象,增加了任务复杂度。

结论与展望

  • 贡献总结本文提出的VeriGUI数据集突破了现有GUI任务数据集的短链与粗粒度验证限制,首次实现了长链、多子任务且子任务可验证的真实GUI操作数据集,推动了通用GUI代理长链规划与决策能力的研究。
  • 局限分析当前版本主要包含网页任务,桌面任务数据仍在收集中,且实验仅覆盖部分基础模型,未来需扩展更多模型和任务类型。任务执行环境的复杂性和不确定性仍是挑战。
  • 未来展望未来工作将完善桌面任务数据,丰富任务多样性,提升数据集规模。结合强化学习和更先进的多模态模型,提升代理在长链复杂任务中的规划和错误恢复能力。同时,探索更细粒度的评估指标,促进代理性能的全面提升。

Efficient Agents: Building Effective Agents While Reducing Cost

2025-07-24|OPPO AI Agent Team|🔺51

http://arxiv.org/abs/2508.02694v1​​
​​https://huggingface.co/papers/2508.02694​​
​​https://github.com/OPPO-PersonalAI/OAgents

研究背景与意义

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 研究背景:随着大型语言模型(LLM)驱动的智能代理在复杂多步骤任务中的卓越表现,其高昂的计算成本成为制约规模化和普及的瓶颈。当前研究多聚焦于提升模型性能,鲜有系统性地探讨性能与效率的权衡,尤其是在代理系统层面的优化尚处于初步阶段。
  • 研究意义:本文首次系统地分析现代智能代理系统中效率与效果的权衡,深入剖析不同组件(如LLM骨干模型、代理框架设计、测试时扩展策略)对成本与性能的影响。研究旨在为设计经济高效且性能优异的智能代理提供理论依据和实践指导,推动AI技术的可持续发展和广泛应用。

研究方法与创新

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 技术描述:研究基于GAIA基准,采用“cost-of-pass”指标衡量代理系统在完成任务时的经济效率。通过对比不同LLM骨干模型(包括GPT-4.1、Claude 3.7 Sonnet、Qwen系列等)、代理框架设计(规划模块、工具使用、记忆机制)及测试时扩展策略(Best-of-N等),系统评估各因素对性能和成本的影响。
  • 创新点

a.系统性效率-效果权衡分析:首次全面解构代理系统各组成部分的成本贡献与性能提升,揭示复杂度与收益递减的临界点。

b.高效代理框架设计(Efficient Agents):基于实证研究结果,提出一种任务自适应的代理框架,合理配置组件以实现性能与成本的最优平衡。

c.实证验证:在GAIA基准上,Efficient Agents实现了96.7%的OWL框架性能,同时将成本降低28.4%,显著提升经济效益。

  • 理论基础:研究结合了系统2推理理论、链式思维(Chain-of-Thought)机制及经济学中的成本效益分析,融合了强化学习和稀疏激活模型架构的最新进展,构建了多维度的效率评价体系。
  • 优势对比:与现有高性能但成本巨大的代理系统相比,Efficient Agents通过精简规划步骤、合理选择骨干模型、优化工具调用和记忆策略,有效避免了“过度思考”和资源浪费,兼顾了性能与可持续性。

实验设计与结果分析

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 实验设计

a.采用GAIA基准测试复杂推理任务,逐项替换和调节骨干模型、规划步数、工具使用策略和记忆机制。

b.评估指标包括准确率(pass@1)、token消耗量、实际成本和cost-of-pass。

c.控制变量法确保单因素影响的准确测量。

  • 结果分析

a.骨干模型选择:高性能模型(如Claude 3.7 Sonnet)虽准确率高,但成本显著上升,稀疏模型(Qwen3-30B-A3B)则在简单任务中表现出色,成本低廉。

b.测试时扩展策略:Best-of-N策略虽略增准确率,但成本呈指数增长,收益递减明显。

c.规划模块:增加最大规划步数提升性能,但成本随之大幅上升,存在最优规划步数区间。

d.工具使用:多源搜索和简化浏览操作提高效率与效果,复杂浏览操作反而增加成本。

e.记忆机制:简单记忆设计(仅保留观察和动作)既节约成本又提升性能,复杂记忆策略反而带来额外负担。

  • 多场景表现:各组件在不同难度任务(GAIA Level 1-3)中表现差异明显,复杂任务对成本敏感度更高,强调了任务适应性设计的重要性。

结论与展望

  • 总结贡献:本文首次系统揭示了LLM驱动代理系统中各模块对性能和经济成本的影响,提出了基于实证分析的Efficient Agents框架,实现了性能与成本的最佳权衡,推动了智能代理系统的可持续发展。
  • 局限分析:当前研究主要聚焦于GAIA基准和特定代理组件,未来需拓展至更多实际应用场景和多模态任务,进一步验证框架的泛化能力。
  • 方法展望

a.任务自适应复杂度调节:未来可探索动态调整代理复杂度以匹配任务需求,进一步优化资源分配。

b.多代理协作与通信优化:减少通信冗余,提升多代理系统整体效率。

c.能耗与环境影响评估:结合绿色AI理念,设计更环保的智能代理系统。

d.集成更丰富的工具与记忆机制:提升代理的环境适应性和长期学习能力。

本研究为智能代理领域提供了系统性的效率优化方案,期待未来在理论深化和实际部署中得到更广泛的应用与发展。

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-06|SJTU, Shanghai AI Lab, CUHK|🔺37

http://arxiv.org/abs/2508.04700v1​​
​​https://huggingface.co/papers/2508.04700​​
​​https://github.com/SunzeY/SEAgent

研究背景与意义

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  1. 问题定义与现状概述随着大型视觉语言模型(LVLMs)的迅速发展,计算机使用代理(CUAs)应运而生,具备了基于视觉输入操作计算机的能力。然而,现有CUAs高度依赖昂贵的人类标注数据,难以适应新颖或专业的软件环境,尤其在缺乏人工注释的场景下表现不佳。
  2. 挑战与目标阐述主要挑战包括:如何在陌生软件环境中自动生成可执行任务,以及如何准确评估任务的完成情况和定位失败步骤。本文旨在设计一种自主演化框架,使CUAs能够通过自主探索和经验学习,摆脱对人工监督的依赖,实现对新软件的高效掌握。
  3. 研究意义该研究推动了从依赖人类标注向经验驱动的智能代理转变,开辟了CUA自主适应和持续演化的新路径,对提升智能代理的通用性和实用性具有重要意义。

研究方法与创新

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  1. 核心架构设计SEAgent框架由三大核心组件构成:
  • Actor模型:执行任务指令,进行探索性操作。
  • World State模型:基于LVLM,负责环境状态描述与任务执行轨迹的逐步评估,提供细粒度的奖励信号。
  • Curriculum Generator:利用大型语言模型自动生成任务,构建逐步递进的学习课程,并维护动态更新的软件指南。
  1. 自主演化的课程学习范式通过多阶段迭代,系统从基础任务开始,依据Actor模型的能力和任务完成情况,自动生成更复杂多样的任务,实现任务集的自我进化。此过程无需人工干预,形成闭环的自适应训练机制。
  2. 强化学习策略创新
  • 奖励模型改进:World State模型对整个操作轨迹进行综合分析,提供精确的步骤级奖励,显著优于传统仅依赖最终状态的奖励机制。
  • 对失败动作的对抗模仿:通过最大化策略与失败动作的差异,显式惩罚错误行为,提升探索效率。
  • **Group Relative Policy Optimization (GRPO)**:基于验证奖励计算相对优势,促进策略优化,支持多样化自由形式的推理和规划。
  1. 专家到通用者的训练策略先分别训练针对单一软件的专家模型,再通过监督微调整合成功轨迹,最终在多软件环境中进行强化学习微调,获得性能超越单一专家集成的通用模型,解决了直接训练通用模型性能不佳的问题。
  2. 理论基础与对比分析SEAgent结合了强化学习、模仿学习和课程学习的优势,创新性地设计了奖励和任务生成机制,显著提升了CUA在新软件环境中的自适应能力,优于传统依赖静态数据和单一奖励信号的方法。

实验设计与结果分析

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  1. 实验环境与基线选用五款专业办公软件(如VSCode、GIMP、Impress等)作为测试环境,基线包括UI-TARS、DigiRL、WebRL等开源CUA模型及大型商业模型(GPT-4o、Gemini等)。
  2. 奖励模型评估World State模型在AgentRewardBench和OS-World数据集上进行评测,表现出较高的精准率和负预测值,尤其在考虑完整操作轨迹的条件下,显著优于其他开源模型,且接近GPT-4o水平,保证了训练中奖励信号的准确性和稳定性。
  3. 自我演化训练过程采用三阶段迭代训练,课程生成器自动升级任务复杂度,Actor模型不断通过强化学习优化策略。实验显示,成功率从初始的11.3%提升至32.2%(专家模型),进一步通过专家到通用者策略提升至34.5%。
  4. 专家与通用模型对比通用模型在多软件环境中表现超越单个专家模型的集成,验证了专家到通用者训练策略的有效性。相比直接训练通用模型,专家先行训练显著提升了学习效率和最终性能。
  5. 消融实验证明了World State模型作为奖励信号生成器的关键作用,以及强化学习框架中对抗模仿和GRPO策略对性能提升的贡献,强调了从失败和成功中学习的重要性。

结论与展望

  1. 研究贡献总结本文提出了SEAgent,一种基于自主探索和经验学习的计算机使用代理框架,核心创新包括细粒度轨迹评估的World State模型、自适应课程生成机制和专家到通用者的训练策略。实验验证了其在多种专业软件环境下显著提升CUA性能的能力。
  2. 局限性分析
  • 当前奖励信号依赖于World State模型的评估,尚未实现与真实环境的直接反馈结合。
  • 任务复杂度和持续时间仍有限,尚未覆盖人类专家长时间、多步骤的复杂工作流程。
  1. 未来研究方向
  • 探索更丰富和真实的奖励信号来源,提升环境交互的真实感和反馈质量。
  • 扩展系统以支持更长时序、更复杂的任务,适应真实世界中专业软件的复杂操作需求。
  • 探讨该框架在游戏和实体机器人等其他智能体系统中的应用潜力,推动智能代理的跨领域发展。

HPSv3: Towards Wide-Spectrum Human Preference Score

2025-08-05|MizzenAI, CUHK MMLab, KCL, Shanghai AI Lab, CPII|ICCV 2025|🔺12

http://arxiv.org/abs/2508.03789v1​​
​​https://huggingface.co/papers/2508.03789​​
​​https://mizzenai.github.io/HPSv3.project/

研究背景与意义

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 背景概述:随着文本到图像生成模型的快速发展,评估这些模型的质量越来越依赖于与人类主观感知高度一致的指标。现有的人类偏好评估指标如HPS、ImageReward、PickScore等,虽然引入了人类反馈,但在数据覆盖范围、特征提取能力和训练方法等方面存在局限,难以全面反映多样化生成模型的表现。
  • 问题定义:当前评估方法受限于训练数据的质量和多样性,主要集中在扩散模型生成的图像,缺乏对最新模型及高质量真实图像的覆盖,且缺乏对注释不确定性的有效建模,导致偏好预测准确性不足。
  • 研究目标:本研究旨在构建一个覆盖更广泛模型类型和图像质量范围的“宽频谱”人类偏好数据集(HPDv3),并基于此设计一个基于视觉语言模型(VLM)且引入不确定性感知的排序损失函数的偏好评分模型(HPSv3),以提升人类偏好预测的准确性和泛化能力。同时,提出一种基于人类偏好的链式推理迭代优化方法(CoHP),用于改进图像生成质量。

研究方法与创新

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 数据集构建:HPDv3集成了1.08百万文本-图像对和1.17百万对图像偏好注释,涵盖了包括GAN、扩散和自回归等16种生成模型的输出,以及高质量真实摄影图像。数据来源多样,包括用户生成的Midjourney图像、互联网真实照片(通过VLM自动生成描述)、以及多个文本提示类别,保证了数据的广泛性和多样性。注释过程严格,采用9至19名专业注释员进行多重标注,确保超过76.5%的高一致性,显著优于前代数据集。
  • 偏好评分模型设计:HPSv3采用Qwen2-VL视觉语言模型作为骨干,提取图像和文本的多模态特征,并通过多层感知机(MLP)进行偏好评分映射。创新性地引入了不确定性感知的排序损失,将评分视为高斯分布,建模注释中的不确定性,有效缓解了标注噪声带来的影响,提升了模型对细微偏好差异的识别能力。
  • 迭代推理优化框架(CoHP):CoHP基于HPSv3作为奖励模型,设计了两阶段的迭代筛选机制——模型级选择阶段通过多轮评分选出最优生成模型,样本级选择阶段则迭代优化单个提示下生成图像的细节和语义一致性。该方法无需额外训练数据,利用链式推理思想系统性提升生成图像的整体质量和人类偏好匹配度。

实验设计与结果分析

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

可验证GUI数据集;智能体调用中的经济效率平衡;自我进化的GUI智能体,从经验学习;宽频谱人类图片偏好评估-AI.x社区

  • 实验设计:构建包含12,000条提示的HPDv3基准测试集,涵盖多种图像类别和模型生成的图像。采用11个主流生成模型生成图像,并使用HPSv3及其他主流偏好模型进行评分比较。训练HPSv3时,使用1.5百万高置信度的注释对,训练参数充分,采用448×448分辨率输入。
  • 结果分析

a.在模型排名任务中,HPSv3与人类偏好具有最高的相关性(Spearman r=0.94,Kendall τ=0.82),明显优于HPSv2、PickScore和ImageReward,体现了其卓越的判别能力和泛化性。

b.在多数据集偏好预测准确率测试中,HPSv3分别在PickScore、HPDv2和HPDv3测试集上达到72.8%、85.4%和76.9%的准确率,领先其他模型显著,且在更具挑战性的HPDv3数据集上表现尤为稳定。

c.消融实验表明,采用Qwen2VL-7B骨干和不确定性感知排序损失显著提升性能,较CLIP和较小骨干模型分别提升10%以上准确率,验证了方法设计的有效性。

d.CoHP框架实验显示,通过4轮模型选择和样本选择迭代,生成图像的HPSv3评分持续提升,图像质量和语义一致性显著增强,优于基于其他偏好模型的迭代方法。

e.用户研究进一步证实CoHP-HPSv3生成的图像在真实人类评估中具有更高的偏好得分,胜率远超其他方法。

结论与展望

  • 研究贡献总结:本研究成功构建了首个覆盖广泛模型和图像质量范围的宽频谱人类偏好数据集HPDv3,极大丰富了文本到图像生成评估的数据基础。基于该数据集,提出的HPSv3模型利用VLM强大特征表达和不确定性感知排序损失,实现了对人类偏好的精准建模,显著优于现有方法。进一步,CoHP推理框架创新性地将偏好评分应用于生成过程的迭代优化,提升了图像生成的整体质量和人类满意度。
  • 局限性分析:尽管HPDv3数据集规模庞大且多样,但仍依赖人工注释,存在成本和时间限制。HPSv3模型虽提升了偏好预测准确性,但在极端复杂语义或风格上仍有提升空间。CoHP方法的迭代过程增加了生成计算开销,实际应用需权衡效率与质量。
  • 未来展望:未来可探索结合更大规模多模态预训练模型,进一步提升偏好模型的泛化能力和细粒度识别能力。同时,可研究自动化注释策略降低人工成本,扩展数据集多样性。CoHP框架可与生成模型的训练过程深度融合,实现端到端的偏好驱动生成优化。此外,拓展该方法至视频、三维等多模态生成领域,推动人类偏好对生成内容的全面引导。

本文转载自​AI研究前瞻​,作者:胡耀淇


已于2025-8-11 09:57:31修改
收藏
回复
举报
回复
相关推荐