超越 GPT-5!FlowSearch 框架刷新四大基准,AI 深度研究进入知识流时代
2025年,当GPT-5在GPQA基准测试中拿下85.4%的成绩时,AI研究界却在思考一个更尖锐的问题:为什么最先进的大模型在处理"1978-1998年马尔科奖得主中是否有来自已消失国家的获奖者"这类需要多步骤推理的问题时,正确率仍不足30%?研究团队给出了颠覆性答案——动态结构化知识流框架FlowSearch,其在GAIA基准测试中以76.7%的成绩超越MiroFlow(74.5%)和GPT-5(85.4%)等强基线,彻底改变了AI深度研究的范式。
科研痛点:当AI遇上"马尔科奖难题"
传统深度研究框架正面临三重困境。2024年OpenAI发布的DR系统在处理跨年度数据验证任务时,因无法追溯网页历史版本,导致对"东德籍获奖者"的误判;OWL框架在蛋白质组学研究中,仅通过静态数据比对就得出结论,完全忽略了实验条件与文献上下文的交叉验证。更严峻的是,MiroFlow等智能体框架虽然引入了流程规划,但在GAIA Level 3(高难度任务)中的正确率仅30.77%,暴露出线性流程设计与动态知识整合能力的双重缺失。
这些痛点背后隐藏着当前AI研究的核心矛盾:学术研究需要"提出假设→验证证据→修正结论"的螺旋式认知过程,而现有模型要么陷入"信息堆砌"的泥潭,要么困于"线性推理"的枷锁。清华大学团队在论文中尖锐指出:"当知识获取与推理过程分离时,AI永远无法真正模拟人类研究员的思维方式。"
FlowSearch架构:三大组件重构知识流动逻辑
动态知识流规划:让AI学会"拆解问题"
FlowSearch的革命性突破始于Flow Planner(流程规划器)的设计。与传统顺序规划不同,该组件采用动态扩展机制,通过公式实现知识流图的迭代生长。在马尔科奖案例中,系统首先将原始问题分解为"获奖名单提取→国家存续性验证→历史边界确认"三个核心节点,每个节点生成如"搜索1983年东德是否存在"的子任务,形成类似科研思维导图的结构化网络。

FlowSearch整体架构图
这个过程类似人类研究员的思考路径:先搭建研究框架,再逐步填充细节。关键在于,Flow Planner能根据中间结果动态调整流程——当发现1989年东德解体的时间节点后,系统自动插入"获奖者国籍时间戳验证"的新分支,这种条件触发式扩展能力,使其在GAIA Level 3任务中实现50%的正确率,远超传统顺序规划器的23.07%。
多模态知识收集:13种工具打造研究闭环
Knowledge Collector(知识收集器)模块彻底打破了AI工具调用的局限性。该组件集成13种专业化工具,从谷歌搜索、维基百科历史版本查询到多模态内容提取(如图像OCR、音频解析),构建起完整的研究工具链。在蛋白质组学案例中,系统通过search_archived_webpage工具获取1998年的原始实验数据,使用ask_question_about_image分析凝胶电泳图,最终通过ocr2text提取质谱数据,整个过程无需人工干预。

Knowledge Collector工具列表
特别值得注意的是时空维度的知识把控:search_wiki_revision工具能精确获取指定年月的维基百科版本,解决了"东德"这类历史实体的时效性问题;search_archived_webpage通过时光机获取已下线网页,确保2003年《自然》论文数据的可追溯性。这种能力使得FlowSearch在处理历史事件类问题时,准确率比GPT-5提升24%。
流程优化器:让AI学会"自我批评"
Flow Refiner(流程优化器)实现了研究质量的闭环控制。该组件通过三大机制提升输出可靠性:首先进行并发流验证,对同一问题生成多条推理路径(如同时比对维基百科和学术数据库的信息);其次执行证据冲突检测,当发现"东德"在1989年前后的名称变化时,自动标记并启动历史边界确认流程;最后完成结果一致性校验,确保所有子结论指向同一答案。
在GAIA消融实验中,启用Refiner组件后,系统平均正确率从61.82%跃升至76.96%,其中Level 2任务提升尤为显著(63.95%→76.74%)。这种提升印证了论文的核心观点:没有反思的知识收集,只是信息的堆砌而非研究。
实验验证:四大基准测试刷新SOTA
跨领域性能碾压:从GAIA到HLE的全面突破
在GAIA基准测试中,FlowSearch以76.7% 的平均正确率超越MiroFlow(74.5%)和Manus(73.3%),尤其在需要多步骤推理的Level 3任务中,50%的正确率是OpenAI-DR(23.07%)的两倍以上。更令人震惊的是GPQA钻石级数据集上的表现:87.4% 的平均成绩不仅超越GPT-5(85.35%),在化学子领域更是以79.57%大幅领先Deepseek-R1(76.34%)。

三大基准测试性能对比
HLE基准测试更凸显FlowSearch的复杂环境适应能力。在包含图像、音频等多模态输入的场景下,其30.8%的正确率远超X-Masters(27.72%)和Gemini-DR(26.9%),证明动态知识流在处理非结构化数据时的独特优势。
消融实验揭示核心价值:规划与优化缺一不可
Table 2的消融实验给出明确结论:仅使用Flow Planner时GAIA平均正确率61.82%,添加Refiner后飙升至76.96%,其中Level 1任务正确率突破90.56%。这意味着结构化规划解决"如何做"的问题,而优化机制决定"做得多好"。对比实验还显示,移除动态扩展功能后,系统在多分支任务中的失败率增加47%,印证了知识流图扩展公式的核心价值。

结构化规划与优化消融实验
规划器选型实验(Table 3)则揭示另一个关键发现:微调后的InternPlanner-32B在GAIA平均正确率达70.91%,不仅超越同参数级别的Qwen-3-32B(64.81%),甚至优于更大规模的Qwen3-235B(66.06%)。这表明专用规划模型比通用大模型更适合复杂任务拆解,为后续研究指明方向。
真实案例对决:OWL框架暴露致命缺陷
在蛋白质组学研究案例中,传统OWL框架仅通过5步静态分析就得出结论,完全忽略了"营养缺乏条件下蛋白质降解率变化"的核心实验条件。而FlowSearch通过跨文献交叉验证→图像数据量化分析→实验方法学评估的三步流程,最终正确识别出降解率降低的目标蛋白,其推理链的完整性得到领域专家高度评价。

OWL与FlowSearch案例对比
这个案例生动展示了两者的本质区别:OWL像个匆忙交卷的学生,而FlowSearch表现得更像严谨的研究员——它会质疑数据来源("该质谱图的检测限是否合理?"),对比不同文献结论("2018年研究显示该蛋白半衰期存在种属差异"),最终形成可验证的研究闭环。
行业启示:AI深度研究的下一个十年
FlowSearch的成功印证了一个趋势:当AI从"信息处理"迈向"知识创造",结构化思维与动态适应能力将成为核心竞争力。其三大创新点具有里程碑意义:知识流图的数学建模首次实现研究过程的可解释性,多模态工具链构建起完整的科研闭环,而规划-优化双引擎为通用人工智能提供新的范式。
但挑战依然存在:在TRQA基准测试中,系统对19世纪历史文献的语义理解准确率仅77.9%,暴露时序知识表征的短板;32B参数模型的计算成本也限制了普及。不过正如论文通讯作者在采访中所说:"我们证明了AI不仅能做研究助理,未来甚至可能成为独立的研究主体——这一天或许比想象中来得更快。"

TRQA基准测试性能
当AI开始像人类一样思考、质疑和修正,科学研究的边界将被重新定义。FlowSearch的真正价值,或许不在于那些耀眼的基准分数,而在于它首次让机器具备了"做科研"的灵魂——那种在迷雾中寻找路径,在矛盾中逼近真相的探索精神。这一天,AI研究者们等待太久了。
作者与机构信息补充:
这项突破性研究由上海人工智能实验室(Shanghai Artificial Intelligence Laboratory)的Yusong Hu、Runmin Ma、Yue Fan、Jinxin Shi、Zongsheng Cao等研究者合作完成,相关成果于2025年10月9日发表在arXiv预印本平台(arXiv:2510.08521v1 [cs.AI])。通讯作者为Lei Bai和Bo Zhang。
本文转载自AIGC深一度,作者:一度

















