
AI Agent评测基准大揭秘:智能体的“体检标准”
最近通用agent越来越火了,从3月初的manus到昨天的Genspark Super Agent,功能越来越强大,AI Agent的技术日新月异,眼花缭乱。
越来越多的公司将数以千计的agent作为核心竞争力,好不好用并不知道,究竟是数量取胜还是质量更加赢得消费者的喜欢?
从数量上,像扣子、腾讯元器等Agent创建平台,上面有大量的agent,各行各业的agent都有,特别方便。
从质量上,爆火的通用智能体manus、Genspark Super Agent,以及多智能体mgx.dev,一夜爆火,全球追捧。
什么样的Agent才算是好的Agent呢?
企业在推进agent业务时,究竟是保证质量还是数量为主呢?值得探讨。
今天小编带你一起来了解一下市面上主流的Agent评测基准。
先点个关注吧,防止走丢。
正文开始。
当前主流的AI Agent评测基准覆盖了从通用智能到垂直领域、从英文到中文、从功能到安全的多个维度。
GAIA基准测试
核心内容与测试范围
由Meta AI等团队提出的综合性基准,旨在评估通用AI助手解决现实问题的能力。
任务类型:466个问题分为三个难度级别,涉及文档理解、网络浏览、逻辑推理、多模态处理(如PPTX、PDF等文件分析)。
目前市面上的agent,可能90%都不能通过这个严苛的测试基准,做agent容易(prompt就可以,或者+workflow),做一个好的agent很难。
核心评价标准
GAIA 使用以下关键维度评估代理:
- 任务执行:代理能够以最小的错误完成预定义的任务,并且无需直接人工干预。
- 适应性:代理对不可预见的情况的反应如何,需要动态的问题解决策略。
- 协作:评估多代理协调和人工代理合作功能。
- 普遍化:测试代理是否可以将学习到的知识应用于其训练分布之外的新颖、看不见的场景。
- 真实世界的推理:GAIA 背离了优先考虑人类日益困难的任务的基准。相反,它专注于人类认为简单但需要 AI 系统表现出结构化推理、规划和准确执行的任务。
任务套件
GAIA 分为多个任务类别,每个任务类别评估不同的模式和交互模式:
- 语言和推理套件 :复杂的问答、基于对话的任务、解谜和战略规划。
- 视觉和感知套件 :对象检测、场景理解和视觉语言任务。
- 协作套件 :多智能体协调和人机交互场景。
- Adaptation Suite:需要实时战略转变和动态学习的新事件。
评估指标
GAIA 使用可量化和可解释的指标来衡量成功:
- 完成率 :成功完成的任务的比例。
- 响应质量 :生成输出的准确性、相关性和精密度。
- 效率 :所花费的时间和计算开销。
- 稳健性 :对抗场景下的性能、不完整的指令或误导性数据。
- 泛化分数 :将技能扩展到训练数据之外的新任务的能力。
特点:强调人类看似简单但需要结构化推理的任务,例如通过画作识别水果并按顺序排列。
应用领域与认可度
应用:Meta、Monica的Manus等企业用于评估通用AI助手能力,尤其在多模态和工具调用场景。
Genspark 超级代理 GAIA
行业地位:被认为是评估AGI的重要里程碑,被学术界和工业界广泛引用。
AgentBench
核心内容与测试范围
清华大学等机构开发的系统性基准,评估LLM作为智能体的推理与决策能力。
任务类型:8个环境,包括操作系统(SQL操作)、知识图谱、卡牌游戏、网络购物等。
- 操作系统:评估LLM在Linux系统的bash环境中的操作能力,如文件操作、用户管理等。
- 数据库:考察LLM利用SQL操作给定的数据库完成查询、修改等任务。
- 知识图谱:需要LLM利用给定的工具查询知识图谱,完成复杂的知识获取任务。
- 卡牌游戏:将LLM视为玩家,根据规则和状态进行数字卡牌游戏,评估策略决策能力。
- 横向思维难题:提供难题故事,LLM需要进行问答来推理得到真相,检查横向思维能力。
- 家庭环境:在模拟的家中场景下,LLM需要自主完成日常任务,如搬移物品等。
- 网络购物:按照要求在模拟购物网站上浏览和购买商品,评估自主探索决策能力。
- 网页浏览:在真实网页环境中,根据高级指令实现操作序列,完成网页任务。
关于LLM的代理能力包括:理解人类意图并执行指令、编码能力、知识获取和推理、策略决策、多轮一致性、逻辑推理、自主探索、可解释的推理。
指标:任务完成率、多轮对话一致性、代码生成准确性。
特点:覆盖代码与生活场景,如用SQL提取数据或预订机票。
应用领域与认可度
应用:OpenAI的GPT-4、Anthropic Claude等主流模型参与测试,GPT-4以4.01分领先。
行业地位:首个系统性评估LLM代理能力的基准,推动学术界对开源与闭源模型差距的研究。
PaperBench
核心内容与测试范围
定义:OpenAI推出的新基准,评估AI代理复现前沿研究的能力。
任务类型:复现20篇ICML 2024论文,包括代码开发与实验执行。
PaperBench 分 3 个阶段运行:
- 代理推出 :代理在 ubuntu 容器中执行,它必须在其中创建其提交:复制论文的代码库。
- 复制 :代理提交的代码库在具有 GPU 访问权限的第二个新容器中执行,以便获得执行代码库的结果。这将创建已执行的提交 。
- 评分 :使用论文的评分量规对已执行的提交进行评分。在运行 judge 的位置创建第三个容器。
指标:复现得分(Claude 3.5 Sonnet平均21.0%)、人类基线对比。
特点:需要深入理解论文贡献,测试科研辅助潜力。
应用领域与认可度
应用:OpenAI内部及学术机构用于测试模型科研能力,目前模型表现仍低于人类。
行业地位:新兴基准,可能成为评估AI科研工具的关键标准。
WAA
核心内容与测试范围
定义:微软开发的基准,评估AI代理在Windows环境中的任务执行能力。
任务类型:154项任务,涵盖Edge浏览器操作、Visual Studio Code编程、文件管理等。
指标:任务成功率(微软Navi代理为19.5%,人类为74.5%)。
特点:支持Azure云并行测试,20分钟完成全面评估。
应用领域与认可度
应用:微软用于优化Windows生态中的AI助手,如Cortana后续迭代。
行业地位:首个聚焦操作系统级任务的基准,推动企业级AI工具开发。
SuperCLUE-Agent
核心内容与测试范围
中文评测基准,评估大模型在中文任务中的Agent能力。
任务类型:包括工具使用(API调用)、任务规划(分解与反思)、长短期记忆(多轮对话)、十大基础能力。
维度一:工具使用
- 调用API:评估AI Agent能否根据API描述精确调用并正确响应。
- 检索API:评估AI Agent能否选择合适的API并学习使用。
- 规划API:评估AI Agent在复杂任务中规划多次API调用的能力。
- 通用工具使用:评估AI Agent使用搜索引擎、网页浏览、文件操作等通用工具的能力。
维度二:任务规划
- 任务分解:评估AI Agent将复杂任务分解为小任务的能力。
- 自我反思:评估AI Agent从错误中学习并改进的能力。
- 思维链(CoT):评估AI Agent将复杂任务分解为简单步骤并逐步解决问题的能力。
维度三:长短期记忆
- 多文档问答:评估AI Agent从多个文档中提取并组合答案的能力。
- 长程对话:评估AI Agent在长对话中切换多个主题的能力。
- 少样本示例学习:评估AI Agent通过少量示例解决新任务的能力,无需微调。
指标:中文场景下的任务完成率,GPT-4领先,国内模型接近GPT-3.5水平。
特点:填补中文Agent评估空白,覆盖金融、医疗等垂直领域。
应用领域与认可度
应用:商汤科技、智谱AI等国内企业用于优化中文助手(如SenseChat 3.0)。
行业地位:中文领域权威基准,推动国产模型商业化。
AgentHarm
核心内容与测试范围
评估LLM代理对有害请求的鲁棒性,由Gray Swan AI等机构提出。
任务类型:440个恶意任务(如欺诈、骚扰),测试越狱后的多步骤执行能力。
指标:合规率、攻击成功率(GPT-4等模型易被越狱)。
特点:首个聚焦代理安全性的基准,揭示现有模型的安全漏洞。
应用领域与认可度
应用:AI安全研究机构用于模型防御策略开发,如Anthropic Claude的安全迭代。
行业地位:AI安全领域的重要工具,被纳入英国AI安全研究所的评估体系。
PromptBench
核心内容与测试范围
微软开发的统一评估库,支持多样化提示工程与对抗攻击测试。
官方:https://promptbench.readthedocs.io/en/latest/
任务类型:情感分析、语法检查、自然语言推理等12类任务。
- 情感分析(SST-2)
- 语法正确性(CoLA)
- 重复句子检测(QQP和MRPC)
- 自然语言推理(MNLI,QNLI,RTE和WNLI)
- 多任务知识(MMLU数据集)
- 阅读理解(SQuAD V2数据集)
- 翻译(UN Mult,IWSLT 2017)
- 数学问题求解(Math和GSM8K)
- 逻辑推理(布尔表达式)
- 常识推理(常识QA,QASC,NummerSense,日期和对象跟踪)
- 符号推理(LastLetterConcat)
- 算法(有效括号数据集)。
PromptBench目前包括6种提示工程方法:
- 少样本Chain-of-Thought( few-shot Chainof-Thought)
- 零样本Chain-of-Thought(zero-shot Chain-of-Thought)
- EmotionPrompt(EmotionPrompt)
- 专家提示(Expert Prompting)
- 生成知识(Generated Knowledge)
- 最小到最大(Least to Most)。
为便于研究LLM对提示的鲁棒性,PromptBench集成了7种对抗性提示攻击:TextBugger,TextFooler,BertAttack,DeepWordBug,Checklist,StressTest和语义。通过提示攻击接口轻松调用,方便测试。
指标:对抗攻击下的模型鲁棒性、动态评估性能。
特点:模块化设计,支持自定义提示与攻击方法(如字符级/词级攻击)。
应用领域与认可度
应用:学术界用于模型鲁棒性研究,微软内部用于优化GPT系列提示策略。
行业地位:提示工程领域的标准化工具,被多篇顶会论文引用。
本文转载自AIGC新知,作者:绛烨
