
再看GAIA Benchamrk:他是如何推动Agent系统的发展的?
大家好,我是HxShine。今天再来看看GAIA Benchmark的细节,来看看GAIA如何成为Agent领域最经典的BenchMark之一。它由Meta FAIR、Hugging Face、AutoGPT等机构联合发布。Title: GAIA: A Benchmark for General Al Assistants(GAIA:一个面向通用人工智能助手的基准测试)。
GAIA旨在评估通用AI助手的能力。与当前主流AI评测基MMLU等追求“对人类也困难”的任务不同,GAIA的理念是提出一系列对普通人来说概念上简单,但对当今最先进的AI来说却极具挑战性的真实世界问题。这些问题需要模型具备推理、多模态处理、网络浏览和工具使用等一系列基础能力。
实验结果揭示了惊人的差距:人类在GAIA上的准确率高达92%,而配备了插件的GPT-4得分仅为15%。这表明,尽管LLM在许多专业任务上已经超越人类,但在成为一个像普通人一样稳健可靠的通用助手方面,还有很长的路要走。GAIA为衡量迈向通用人工智能(AGI)的真实进展提供了一个全新的、更脚踏实地的视角。
一、概述
• Title: GAIA: A Benchmark for General Al Assistants
• URL: https://arxiv.org/abs/2311.12983
• Authors: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom
• Institutions: FAIR, Meta, HuggingFace, AutoGPT, GenAI, Meta
• Code: https://huggingface.co/gaia-benchmark
1 Motivation
• 现有基准如MMLU逐渐被刷饱和并存在数据污染风险: 许多现有的大语言模型(LLM)基准(如MMLU, GSM8k)正在被迅速“攻克”,性能接近饱和。这使得我们难以区分更先进模型的能力。此外,这些基准大多是静态的,容易受到数据污染(即训练数据中包含了测试题)的影响。
• 当前一些评测任务太难了,可能对人类专家都比较难,无法评估模型的真正水平: 当前的评测趋势是寻找对人类专家也越来越难的任务(例如,高难度的STEM或法律问题)。然而,作者认为,一个真正的通用AI助手应该能够稳健地完成普通人认为“简单”但需要多个步骤和工具才能完成的任务。现有模型在这方面的能力是缺失的。
• 当前一些benchmark评估比较困难: 对于开放式生成任务,评估非常困难。自动评估难以衡量质量,人工评估成本高昂且难以扩展,而基于模型的评估(Model-based Evaluation)又会引入评估器本身的偏见。因此,需要一种能够进行简单、快速、可复现且客观评估的方法。
2 Methods
GAIA的核心方法是人工精心设计一套问题,这些问题具备以下特点:1)对人类来说概念简单;2)对AI来说需要复杂的、多步骤的操作才能解决;3)答案是唯一的、事实性的、简短的,从而可以实现自动化、精确的评估。它通过对比人类和AI的巨大性能差异,来衡量AI助手的真实通用能力。例如下面展示了GAIA三个不同难度等级的示例问题。
• Level 1 要求从NIH网站查找一项临床试验的注册人数,主要考察基础的网络搜索和信息定位能力。
• Level 2 给出了一张冰淇淋的营养成分表图片,要求结合维基百科上关于美国联邦黄油脂肪含量的标准进行计算,考察了多模态(OCR)、信息检索和计算能力。
• Level 3 则是一个更复杂的任务,需要结合NASA的每日天文图片、宇航员团队信息和个人太空飞行记录,进行多步查询和筛选,才能找到最终答案。
详细方法和步骤:
GAIA的构建和评估方法主要包含以下几个关键步骤:
1)核心设计原则:
• 真实世界与挑战性 (Real-world and challenging): 问题要求模型与开放且动态的互联网交互、处理多模态信息(如图片、表格文件)、并在多个步骤上进行推理,而非局限于封闭的、纯文本的环境。
• 易于解释 (Easy interpretability): 由于任务对人类来说概念简单,所以人类评估者可以轻松地理解和验证模型的推理路径是否正确。
• 不可欺骗性 (Non-gameability): 问题的答案被精心设计,无法通过简单的网络搜索直接在纯文本中找到。这迫使模型必须真正地“解决”问题,而不是依赖记忆或数据污染。
• 使用简单 (Simplicity of use): 问题以零样本(zero-shot)的方式提出,答案是事实性的、简洁且无歧义的(如一个数字、一个名字),这使得评估可以快速、自动化地通过“准完全匹配”进行。
2)问题构建与验证流程:
• 问题创建 (Crafting): 由人类标注员基于真实场景创建问题。这些问题通常需要结合多个信息源(如一个指定的网站和一份附加的文档)才能得出答案。
• 问题验证 (Validating): 为了确保问题的无歧义性,每个问题都会交给另外两名独立的标注员来解答。只有当创建者和两名验证者都得出完全相同的答案时,该问题才被认为是有效的。这个严格的流程保证了评估的客观性。
• 难度分级 (Increasing difficulty): 问题根据解决它所需的操作步骤数和工具种类,被分为三个难度等级(Level 1, 2, 3)。Level 1通常只需要很少的步骤和工具,而Level 3则需要任意长的动作序列和多种工具的组合。
3)能力覆盖范围:
• GAIA问题覆盖了通用AI助手的多种核心能力,主要包括:网络浏览 (Web browsing)、多模态理解 (Multi-modality)、代码执行 (Coding) 和 多种文件类型读取 (Diverse filetype reading)。
4)评估执行:
• 论文中主要评估了GPT-4(带插件和不带插件)、AutoGPT等当时最先进的系统,并与人类标注员的得分和耗时以及简单的搜索引擎基线进行对比。
通过这一套完整的方法论,GAIA构建了一个高质量的评测集,旨在为通用AI助手的发展提供一个可靠的“标尺”。
3 Conclusion
• 揭示了巨大能力差距: GAIA成功地证明了,尽管LLM在许多方面表现出色,但它们与人类在执行需要与现实世界交互的通用任务方面存在巨大的鸿沟(人类92% vs. GPT-4带插件 15%)。
• 提出了新的评测范式: GAIA的理念——关注对人简单但对AI复杂的任务——为评估通用智能提供了一个新的、更实际的方向,强调系统的鲁棒性和通用性,而不是在狭窄专业领域的能力。
• 构建了一个高质量、抗污染的基准: 通过严格的人工创建和验证流程,GAIA提供了一个难以“应试”或被数据污染的基准测试,能够更真实地反映AI助手的实际问题解决能力。
4 Limitation
• 缺乏对推理过程的评估: 目前GAIA只评估最终答案的正确性,而没有评估模型得出答案的推理路径(trace)。一个正确的答案可能来自错误的推理,评估推理过程是未来需要解决的问题。
• 高昂的构建成本: 设计并验证一个高质量、无歧义的GAIA问题需要大约2个小时的人工时间,这使得大规模扩展该基准变得非常昂贵和耗时。
• 缺乏语言和文化多样性: 当前的GAIA完全基于英语,且问题源主要来自英文网页。这无法衡量AI助手在非英语环境下的表现,也限制了其全球适用性。
• 对模型和工具的依赖: 评估主要集中在有强大工具使用能力的闭源模型(如GPT-4),因为其他模型在这些任务上得分过低。未来需要更多具备工具调用能力的开源模型加入评测。
二、详细内容
1 Example: GPT-4如何使用代码解释器来回答一个需要处理Excel表格的问题?
2 GAIA问题中有许多附加文件,如xlsx, png, pdf等。
3 一个完整的示例:提供了详细的实验数据,包括问题标注示例、验证阶段的统计数据以及最终的精确数值。
三、总结
亮点1: 重新定义了AI评测的“难点”,从“智力难题”转向“通用鲁棒性”。 GAIA最大的创新在于,它没有追求让AI解决连人类专家都头疼的问题,而是考察AI是否具备普通人那种、能可靠地完成一系列虽然繁琐但逻辑清晰的日常任务的能力。这为AGI的研究提供了一个更加务实和关键的评估维度。
亮点2: 用无可辩驳的数据揭示了当前AI助手的“脆弱性”。 92% vs 15%的巨大差距,有力地说明了当前最顶尖的AI系统在面对开放、动态的真实世界任务时,其规划、推理和工具使用的能力仍然非常不可靠。这给当前火热的Agent领域泼了一盆“冷水”,也指明了未来最需要突破的方向。
亮点3: 提供了一套高质量、可信且难以“刷分”的评测框架。 GAIA通过严格的 人工设计和多重验证,确保了问题的质量和无歧义性,同时其设计理念也使得它天然地抵抗数据污染。 这对于追求真实能力进步而非在排行榜上“刷分”的研究社区来说,具有极高的价值。
产业应用价值: 对于致力于开发AI助手和Agent应用的团队来说,GAIA是一个绝佳的“试金石”和“导航图”。它不再让团队满足于在MMLU等学术基准上提升几个百分点,而是直接暴露了产品在实际应用中可能遇到的核心短板,例如“模型无法稳定调用工具”、“在多步任务中丢失目标”、“无法从网页或文件中准确提取信息”等。使用GAIA或其理念来构建内部的评测集,可以帮助团队更准确地定位问题、指导研发方向,从而打造出真正可靠、有用的下一代AI助手,也推动了Agent的发展。
本文转载自NLP PaperWeekly,作者:NLP PaperWeekly
