Meta ARE:构建大规模agent测试环境的开源利器

发布于 2025-9-24 07:04
浏览
0收藏

Meta 论文(ARE: scaling up agent environments and evaluations)开源了Meta agent研究环境(ARE)。ARE + Gaia2 — 一个用于在现实的、时间驱动环境中构建和压力测试agent系统的研究平台和基准。论文介绍了一个模块化模拟器(ARE)和一个移动端风格基准(Gaia2),强调异步事件、写入操作验证以及在嘈杂、动态环境中的多agent协调。

Meta ARE:构建大规模agent测试环境的开源利器-AI.x社区图片

ARE:模拟器 --所有内容都建模为应用程序、事件、通知和场景 ;时间持续流动,即使在agent思考时也是如此,因此慢速模型会错过截止时间 ;agent使用工具、接收异步通知,并在有向无环图定义的规则下运行。

Meta ARE:构建大规模agent测试环境的开源利器-AI.x社区图片


Meta ARE:构建大规模agent测试环境的开源利器-AI.x社区图片

Gaia2:基准测试 --在类似智能手机的世界中有1,120个场景,包含12个应用程序(聊天、日历、购物、邮件等) ;六种主要挑战类型:搜索、执行、适应性、时间、模糊性和agent间协作(示例见第12-14页,GUI截图中显示了事件图) ;场景可验证:通过硬检查(ID、顺序)和软LLM判断(内容)将预言机写入操作与agent操作进行比较。

结果: 没有单一模型占主导地位:GPT-5"高"推理在困难任务上领先,但在时间关键任务上崩溃。Claude-4 Sonnet在速度与准确性之间取得平衡,但成本更高。开源模型(如Kimi-K2)在适应性方面显示出潜力。扩展曲线趋于平缓,显示在相同框架上投入更多计算资源的收益递减。

Meta ARE:构建大规模agent测试环境的开源利器-AI.x社区图片

强推理模型经常在及时性方面失败("逆向扩展"效应)。即时模式实验证实,当截止时间很重要时,长时间推理会有害。多agent设置帮助较弱的模型更好地协调,但对最强系统产生混合结果。

Meta ARE:构建大规模agent测试环境的开源利器-AI.x社区图片

本文转载自​AI帝国​,作者:无影寺

已于2025-9-24 10:31:26修改
收藏
回复
举报
回复
相关推荐