
谷歌重新定义Deep Researcher能力:测试时扩散能力增强深度研究智能体
当 AI 被要求写一份关于 “2025 年生物医学突破” 的深度报告时,它为何总是东拼西凑、漏洞百出?谷歌团队发现,问题出在 AI 不会像人类一样 “反复打磨”—— 而他们新提出的 TTD-DR 框架,竟让 AI 学会了 “先写初稿、再查资料、逐句修改” 的研究员式工作法,性能直接碾压现有系统。这个框架究竟是如何运作的?
摘要&解读
在大型语言模型(LLMs)的驱动下,深度研究智能体正在迅速发展;然而,当使用通用的测试时缩放算法生成复杂、长篇的研究报告时,其性能往往会停滞不前。受人类研究迭代性质的启发——包括搜索、推理和修订的循环,我们提出了测试时扩散深度研究智能体(TTD-DR)。这个新颖的框架将研究报告生成概念化为一个扩散过程。TTD-DR以初步草稿启动这一过程,该草稿是一个可更新的框架,作为指导研究方向的动态基础。然后,草稿通过“去噪”过程进行迭代优化,该过程由检索机制动态提供信息,在每个步骤中整合外部信息。核心过程通过在智能体工作流的每个组件上应用自进化算法得到进一步增强,确保为扩散过程生成高质量的上下文。这种以草稿为中心的设计使报告撰写过程更及时、更连贯,同时减少迭代搜索过程中的信息丢失。我们证明,我们的TTD-DR在需要密集搜索和多跳推理的多种基准测试中取得了最先进的结果,显著优于现有的深度研究智能体。
研究贡献
1. 提出测试时扩散深度研究智能体(TTD-DR)框架,首次将研究报告生成建模为扩散过程,模仿人类迭代研究行为,提升报告的及时性和连贯性。
2. 设计双核心机制:
• 基于检索的去噪:以初始草稿为“噪声”起点,迭代通过检索外部信息修订草稿,动态引导研究方向。
• 组件级自进化:对工作流各环节(计划、问题、答案等)生成多变体,通过环境反馈优化并融合,减少信息丢失。
3. 仅依赖通用搜索工具即可实现高性能,无需整合专有工具(如多模态、网页浏览),增强实用性。
4. 建立严格评估方法,结合人类标注与校准的LLM评判,验证了TTD-DR在长文本报告和多跳推理任务中的优势。
实现设计
1.骨干深度研究智能体:三阶段工作流
• 阶段1(研究计划生成):生成结构化计划,确定报告关键领域。
• 阶段2(迭代搜索与合成):循环生成搜索问题→检索并总结答案,直至覆盖计划。
• 阶段3(最终报告生成):整合计划和问答信息,生成完整报告。
2.组件级自进化:
• 生成多个初始输出变体(如答案、问题),通过不同参数(温度、top_k)扩展搜索空间。
• 基于LLM评判的环境反馈(评分+ critique)修订变体,重复迭代。
• 交叉融合多变体,整合最优信息形成高质量输出。
3.报告级基于检索的去噪:
• 初始草稿作为“噪声”输入,结合用户查询和研究计划生成。
• 迭代循环:用当前草稿生成搜索问题→检索信息→修订草稿(补充新信息/验证现有内容)。
• 最终基于完整修订历史和检索结果生成“去噪”报告。
实验结果
1.性能超越现有系统:在LongForm Research(胜率69.1%)、DeepConsult(胜率74.5%)等长文本任务中,显著优于OpenAI Deep Research、Perplexity等;在HLE-search(正确率33.9%)、GAIA(正确率69.1%)等多跳推理任务中,也高于对比系统。
2.消融研究验证机制有效性:
• 仅骨干智能体性能优于带搜索的LLM,但不及OpenAI系统。
• 加入自进化后,长文本任务胜率提升至60%+,多跳任务正确率接近或超过OpenAI。
• 加入基于检索的去噪后,所有任务性能进一步跃升,达到最佳结果。
3.效率优势:帕累托前沿分析显示,TTD-DR在相同延迟下性能更优,且每增加单位延迟的性能提升幅度(斜率)高于其他系统,验证了测试时缩放的高效性。
1. 引言
在最近先进的大型语言模型的支持下,构建深度研究(DR)智能体在研究和工业界都迅速受到关注。这些智能体展现出令人瞩目的能力,包括生成新想法(Hu等人,2024;Si等人,2024)、通过搜索工具有效收集信息(Jin等人,2025;Li等人,2025a),以及在起草研究报告或论文之前执行分析或实验(Yamada等人,2025;Zheng等人,2024)。现有的深度研究智能体主要利用测试时缩放方法,如思维链(CoT)(Wei等人,2022)、n中选优采样(Ichihara等人,2025)、蒙特卡洛树搜索(Świechowski等人,2022)、辩论机制(Liang等人,2023)和自我优化循环(Madaan等人,2023)。尽管取得了令人印象深刻的进展,但大多数流行的公共深度研究智能体(Alzubi等人,2025;Researcher,2025;Roucher等人,2025)在整合这些测试时算法和各种工具时,缺乏由人类写作认知行为驱动的精心设计,并且通常缺乏赋予人类研究人员能力的有原则的草稿、搜索和反馈机制。这表明当前深度研究智能体工作存在根本性限制,并凸显了需要一个更具凝聚力、专门为模仿或超越人类研究能力而构建的深度研究智能体框架。
图1 | 我们的方法受到人类自然写作过程的启发,包括规划、起草和对草稿的多次修订。
先前的认知研究表明,当人类撰写复杂主题时,他们不会遵循线性进程,即从第一个词写到最后一个词。如图1(Chitwood,2022)所示,人们通常首先制定一个高层次的计划,然后根据该计划起草研究报告,随后进行多轮修订(Flower和Hayes,1981)。关键的是,在修订阶段,作者经常会查阅文献或使用搜索工具来收集补充信息,以完善和强化他们的论点(Catalano,2013)。
我们观察到这种人类写作模式与结合检索的扩散模型中的采样过程(Zhang等人,2023)之间存在显著相似性。打个比方,一个训练有素的扩散模型最初生成一个带噪声的草稿,然后去噪模块在检索工具的帮助下,将这个草稿修订为更高质量(或更高分辨率)的输出。受这种扩散采样范式(Shen等人,2025;Yang等人,2022)的启发,我们为深度研究智能体提出了测试时扩散(TTD)。我们的框架将整个研究报告生成精心建模为一个迭代扩散过程,模仿人类的认知模式。由于 vanilla 扩散采样在为复杂研究任务生成高质量输出方面可能效果不佳,我们专门设计了我们的TTD深度研究智能体,包含两种机制,如图2所示并详细说明如下。
(a)基于检索的去噪(Zhang等人,2023):主要基于大型语言模型内部知识起草的初始研究报告经过迭代优化。去噪后的草稿与研究计划(阶段1)一起指导下游研究方向。每个去噪步骤都通过有针对性的外部信息检索(阶段2)得到增强,显著提高了准确性和全面性。(b)自进化(Lee等人,2025;Novikov等人,2025):除了通过草稿进行报告级别的扩散外,智能体工作流中的每个单独组件(例如,计划、问题、答案和报告生成)都经历自己的优化过程。这鼓励探索多样化的知识,减少每个单元智能体在漫长智能体轨迹中的信息丢失,从而为报告扩散提供更有利的上下文。这两种算法的复杂相互作用和协同组合对于实现高质量的研究成果至关重要。
图2 | 我们的测试时扩散深度研究智能体(TTD-DR)框架示意图,旨在通过草稿模仿人类研究的迭代性质。用户查询同时启动初步草稿和研究计划。这个不断演变的草稿与研究计划一起,动态地为搜索问题的生成和后续的信息检索提供指导,确保及时性和连贯性,同时减少信息丢失。然后,检索到的信息被用于去噪和完善初始草稿,形成一个持续的反馈循环。整个工作流通过自进化算法进一步优化,以提高研究计划、生成的问题、答案和最终报告的质量,展示了扩散和自进化在实现卓越研究成果方面的协同力量。
先前的工作主要集中在科学论文写作智能体(Chen等人,2025;Gottweis等人,2025;Lu等人,2024;Tang等人,2025;Yamada等人,2025),特别强调生成学术出版物。最近,范围已扩大到通用研究智能体(Li等人,2025b;Zheng等人,2025),旨在更广泛的信息查找和推理用例。与这些现有努力相比,我们的工作引入了一种为更广泛应用而设计的深度研究智能体。具体而言,我们开发了一个研究助手,能够为不同行业领域(包括金融、生物医学、娱乐和技术)的复杂研究问题生成有用且全面的报告(Han等人,2024),类似于OpenAI(2025)、Perplexity(2025)和Grok(2025)提供的深度研究产品。我们的框架针对当前最先进的大型语言模型无法仅通过其内部知识或传统搜索工具完全解决的、需要大量搜索和推理的用户查询。我们总结了以下主要贡献:
• 我们提出了测试时扩散深度研究智能体(TTD-DR),这是一种新颖的测试时扩散框架,能够对研究报告进行迭代起草和修订,从而更及时、连贯地整合信息,同时减少研究过程中的信息丢失。
• 我们仅使用大多数智能体系统容易获取的搜索工具对TTD-DR进行压力测试,无需整合额外的专有工具(例如,多模态、网页浏览)。
我们为深度研究智能体建立了严格的评估方法,采用全面的指标和专家评估员。我们的实验表明,TTD-DR在需要撰写长篇综合研究报告或需要多跳搜索和推理以确定简洁答案的任务中,显著优于各种领先的研究智能体。我们进行了全面的消融研究和深入分析,以阐明TTD-DR各组件的单独贡献,并证明其在超越领先深度研究智能体方面的有效性。
2. 测试时扩散深度研究智能体(TTD-DR)
我们的方法,即测试时扩散深度研究智能体(TTD-DR),受到人类研究迭代性质的启发,包括规划、起草、信息搜索和修订的循环。我们将复杂研究报告的生成概念化为一个扩散过程,其中初始的、带噪声的草稿逐步优化为高质量的最终输出。这通过两个协同作用的核心机制实现:(1)通过基于检索的去噪进行报告级优化,整个报告草稿在此过程中不断演变;(2)通过自进化进行组件级优化,提高研究工作流中每个步骤的质量。
TTD-DR框架旨在解决现有深度研究智能体的局限性。如图3所示,许多公共智能体,如Huggingface Open DR(Roucher等人,2025)、GPT研究智能体(Researcher,2025)和Open Deep Research(Alzubi等人,2025)采用线性或并行的规划、搜索和生成过程。这可能导致全局上下文的丢失,并在研究过程中错过关键的依赖关系。我们以草稿为中心的迭代方法保持了连贯性,并为研究方向提供了动态指导,减少了信息丢失。来自OpenAI(2025)、Perplexity(2025)和Grok(2025)的专有深度研究智能体在很大程度上仍然是黑箱。
2.1. 骨干深度研究智能体
图4展示了我们的骨干深度研究智能体,它由三个主要阶段组成,包含智能体框架的几个关键组件:单元大型语言模型智能体、工作流和智能体状态。我们详细解释如下。
图3 | 我们的方法与其他开源深度研究智能体的比较。(a)Huggingface Open DR(Roucher等人,2025)利用轻量级规划器确定后续行动,例如调用搜索或浏览工具,并重复这些行动直到找到答案。(b)GPT研究智能体(Researcher,2025)也采用轻量级规划器并行生成和执行多个搜索查询,然后由生成器将检索到的文档合成为报告。(c)Open Deep Research(Research,2025)使用规划器概述最终报告的结构,然后为每个部分单独进行迭代研究,之后再将它们组合起来。(d)我们的TTD-DR引入了草稿去噪机制。与Open Deep Research不同,TTD-DR避免为每个部分进行单独搜索以保持全局上下文,并使用基于RAG的答案生成器处理检索到的文档,然后将其保存用于最终报告生成。
图4 | 我们的骨干深度研究智能体按上述三个阶段运行。阶段1生成详细的研究计划,概述最终报告的结构并指导信息搜索。阶段2迭代生成搜索问题(2a),然后使用类RAG系统从检索到的文档中合成精确的答案(2b),而不是保存原始数据。最后,阶段3综合所有收集到的信息以生成最终报告。每个阶段都可以使用第2.2节详细介绍的自进化算法进行单独优化。
阶段1:研究计划生成是一个专用的单元大型语言模型智能体,在收到用户查询后生成结构化的研究计划。该计划概述了最终报告所需的一系列关键领域,作为指导后续信息收集过程的初始框架。一旦生成研究计划,它将被保存在智能体阶段中,然后传输给其子智能体。
阶段2:迭代搜索与合成是嵌套在其父级顺序工作流中的循环工作流。它包含两个子智能体:搜索问题生成(阶段2a)根据研究计划、用户查询和先前搜索迭代的上下文(即过去的问题和答案)制定搜索查询。答案搜索(阶段2b)搜索可用来源(如谷歌搜索)以找到相关文档并返回总结的答案。这个循环(阶段2a→阶段2b)持续进行,直到研究计划得到充分覆盖或达到最大迭代次数。
阶段3:最终报告生成是其父级顺序工作流(阶段2→阶段3)中的一个单元大型语言模型智能体,通过综合所有收集到的结构化信息——阶段1的计划和阶段2的一系列问答对,生成全面且连贯的最终报告。
2.2. 组件级自进化
上面介绍的骨干深度研究智能体确定了整体研究方向(阶段1),并为最终报告撰写(阶段3)提供了上下文和信息(阶段2)。我们增强每个阶段智能体的性能,以找到并保留高质量的上下文。为实现这一目标,我们利用自进化算法来改进每个阶段的智能体。图5展示了我们提出的算法,其灵感来自最近的自进化工作(Lee等人,2025;Novikov等人,2025)。这里我们以搜索答案生成为例,但该算法可以应用于所有阶段智能体,如计划生成、搜索问题甚至最终报告生成,以提高它们的输出质量。该算法在并行工作流中实现,包含以下顺序和循环工作流。
1.初始状态:最左侧的块生成多个不同的输出变体(例如,一个搜索查询的几个可能答案),这些变体以先前阶段的输出为条件。每个块由一个单元大型语言模型智能体实现,允许使用不同的参数(例如,温度、top_k)采样多个答案,以探索更大的搜索空间。理想情况下,这会导致发现潜在更有价值的信息。
2.环境反馈:每个答案变体都由作为评判者的大型语言模型进行评估,利用自动评分器评估诸如有用性和全面性等指标。这些评分器不仅提供适应度分数,还生成有助于改进答案的文本评论。
3.修订步骤:根据上一步的分数和反馈,每个变体进行修订步骤,以朝着更好的适应度分数调整。“环境反馈”和“修订”步骤重复进行,直到满足停止标准,形成一个循环工作流。
4.交叉融合:最后,多个修订后的变体被合并为一个高质量的输出。这个合并过程整合了所有进化路径中的最佳信息,为主要报告生成过程提供了更优的上下文。合并提示可以在附录A.5中找到。
图5 | 应用于搜索答案(图4中的阶段2b)的组件级自进化示意图。该过程从初始答案的多个变体开始。每个变体然后经历一个自进化阶段,首先与环境交互以获得适应度分数和反馈。然后根据反馈进行修订。这个过程重复直到达到最大迭代次数。最后,来自所有阶段的多个修订变体被合并以产生最终答案。
虽然自进化提高了每个组件输出的质量,但这些信息要到搜索过程完成后才会整合到最终报告中。这种延迟促使我们采用第二种机制,即基于检索的去噪,它更及时、连贯地整合智能体的发现,以有效指导研究方向。
2.3. 报告级基于检索的去噪
受扩散模型中采样过程的启发,即带噪声的图像被迭代优化,我们提示大型语言模型根据用户的查询生成初始草稿报告。如图2所示,该草稿作为“带噪声”的起点。然而,正如先前工作所指出的,让模型在没有外部上下文的情况下对自己的输出进行去噪可能导致收敛缓慢和次优结果(Shen等人,2025;Yoon等人,2025;Zhang等人,2023)。对于需要来自搜索工具的外部信息来改进草稿的复杂研究查询,情况尤其如此。这一观察促使我们设计与第2.1节介绍的骨干深度研究工作流直接相连的检索增强去噪过程。
具体而言,如算法1所示,我们将当前草稿报告输入到骨干深度研究工作流的阶段2a,以指导下一个搜索查询的生成(第2行)。在阶段2b获得合成答案后(第4行),新信息被用于修订报告草稿, either by adding new details or by verifying existing information(第6行)。这个将去噪后的报告反馈回来生成下一个搜索查询的过程在一个连续的循环中重复。草稿逐步“去噪”,直到搜索过程结束,此时最终智能体根据所有历史搜索答案和修订生成最终报告(阶段3)。
算法1 基于检索的去噪
输入:𝑞,M,P,R0,Q,A ⊲查询,所有智能体,计划,初始带噪声草稿,搜索问题和答案的历史
1: for 𝑡∈{1,...,𝑁} do ⊲𝑁:最大修订步骤数
2: 𝑄𝑡= MQ (𝑞, P, R𝑡−1, Q, A) ⊲生成下一个问题以解决R𝑡中的差距
3: 𝑄𝑡→Q
4: 𝐴𝑡= MA (𝑄𝑡) ⊲检索外部信息以提供具体的去噪增量
5: 𝐴𝑡→A
6: R𝑡= MR (𝑞, R𝑡−1, Q, A) ⊲从先前的草稿中去除“噪声”(不精确性、不完整性)
7: if exit_loop then
8: break ⊲如果调用exit_loop,则停止修订
9: end if
10: end for
总之,这个连续的反馈循环——不断演变的草稿指导搜索,而搜索又完善草稿——确保报告保持连贯,研究不偏离轨道。最终的“去噪”报告在搜索过程结束后生成,基于所有修订和检索到的答案的完整历史。组件级自进化和报告级扩散过程之间的协同作用至关重要,使TTD-DR能够取得最先进的结果。
3. 实验设置
为了严格评估我们的测试时扩散深度研究智能体(TTD-DR),我们建立了一个全面的实验框架。本节详细介绍了评估指标、用于基准测试的数据集以及我们实现的细节。
3.1. 评估指标
我们的深度研究智能体本质上是一个复杂的多智能体系统。该系统的每个阶段生成冗长的响应,最终智能体将这些响应连贯地组合起来,为用户生成全面的报告。
评估长篇大型语言模型响应和复杂的智能体轨迹面临重大挑战,因为需要验证的事实数量庞大,长期逻辑依赖关系复杂,以及大型语言模型和人类评判者固有的主观性(Han等人,2024;Li等人,2024;Si等人,2024)。为了确保我们评估员的质量和效率,我们收集高质量的人类判断注释,校准与人类偏好一致的作为评判者的大型语言模型,并使用校准后的作为评判者的大型语言模型作为最终评估员。我们在下面提供评估指标的更多细节。
• 有用性和全面性是评估长篇大型语言模型响应(特别是研究输出)最常用的两个指标(Coelho等人,2025;Lim等人,2025;Schmidgall等人,2025)。因此,我们采用这两个指标,并基于它们构建一个新的并排质量比较框架。有用性由四个标准定义:1)满足用户意图,2)易于理解(流畅性和连贯性),3)准确性,4)适当的语言。全面性定义为没有缺失关键信息。如有需要,允许通过网络搜索更好地理解查询。确定报告有用性和全面性水平的指南可以在附录A.1中找到。
并排质量比较(也称为成对评估)是评估长篇大型语言模型响应的广泛采用的方法(Han等人,2024;Li等人,2024;Liu等人,2024;Si等人,2024)。评估员被要求在考虑有用性和全面性的情况下,在两个报告(A和B)之间表达偏好,使用以下量表:1)好得多,如果A既比B更有用又更全面;2)更好,如果A比B更有用且与B同样全面,或者A比B更全面且与B同样有用;3)稍好,如果A更有用但不如B全面;否则,选择4)大致相同,如果上述条件都不满足。当B比A好时,逻辑相同。我们定制的人类注释界面可以在附录A.2中找到。每对都进行两次评分,以计算人类评估员之间的一致性。然后,我们部署一个具有相同人类指令的作为评判者的大型语言模型,以与人类评分保持一致。我们在下一小节中讨论更多校准细节。
正确性用于我们的多跳短篇问答任务(Phan等人,2025)。对于此类任务,我们可以简单地提示大型语言模型将我们智能体产生的长篇答案与给定的 ground-truth 进行比较。我们遵循标准评估提示¹,首先从大型语言模型的响应中提取单个答案,然后将提取的答案与 ground-truth 进行比较。
3.2. 作为评判者的大型语言模型校准
由于LongForm Research和DeepConsult基准中没有长篇响应的 ground truth,进行可扩展评估的常见做法是利用作为评判者的大型语言模型(Coelho等人,2025;Han等人,2024;Lim等人,2025;Schmidgall等人,2025;Si等人,2024)。然而,大多数先前的深度研究智能体工作没有专门将作为评判者的大型语言模型的质量与人类评估员进行校准,这引发了对自动评估器可靠性的质疑。
相比之下,我们通过将我们深度研究智能体的200份报告与OpenAI深度研究的报告进行比较,使作为评判者的大型语言模型与人类评分保持一致。然后,我们使用与人类评估中相同的评估提示进行并排比较,然后计算自动评分器与人类评估员之间的一致性分数。附录A.3中的表3提供了关于我们选择Gemini-1.5-pro作为作为评判者的大型语言模型的详细信息和结果。
对于用于评估HLE和GAIA数据集的正确性自动评分器,我们没有将其与人类评分进行校准。这是因为这些任务存在官方评估提示,并且我们通过遵循原始提示与研究界保持一致。此外,这两个基准中的所有答案都有明确的 ground-truth 答案,简化了大型语言模型响应正确性的判断。因此,我们使用Gemini-1.5-pro作为评估模型,无需对这些特定任务进行进一步的人类校准。
3.3. 数据
我们选择的基准侧重于两个广泛的任务。1)需要研究智能体生成长篇综合报告的复杂查询(LongForm Research和DeepConsult)2)需要广泛搜索和推理才能回答的多跳查询(HLE和GAIA)。这两个类别都符合我们构建通用、现实世界研究助手的目标,类似于OpenAI深度研究(OpenAI,2025)和Perplexity深度研究(Perplexity,2025)。值得注意的是,这两个任务可能需要多达20个搜索步骤(跳)才能完全解决用户查询,如附录中的图7a和12a所示。如果不需要广泛搜索(例如,只需要几个搜索步骤),其他数据集则不在本工作的范围内,例如长篇RAG-QA(Han等人,2024;Stelmakh等人,2022)和短篇多跳QA(Trivedi等人,2022;Yang等人,2018)。这也适用于不针对通用研究报告生成的数据集,例如AI-Researcher(Tang等人,2025)。此外,我们专注于搜索工具的使用,将其他工具(如浏览和编码)的整合推迟到未来的工作中。
LongForm Research。为了将我们的深度研究智能体系统与其他基线进行基准测试,我们首先精心挑选了一组需要搜索和复杂推理的授权现实世界查询。这个数据集最能代表我们的目标用例,即用户需要深入研究以创建有用且全面的报告。这个评估集包含205个查询,涵盖多个行业领域,如图6所示。
图6 | 评估集的查询领域分布:LongForm Research(左)和HLE-search(右),均展示了多样化的领域覆盖。
DeepConsult(Lim等人,2025)是一组用于深度研究的商业和咨询相关提示。查询集涵盖广泛的主题,包括营销、金融、技术趋势和商业规划。
人类终极考试(HLE)(Phan等人,2025)是一个包含2500个极具挑战性的问题的基准,涉及数十个学科领域,旨在作为广泛学术能力的最终封闭式基准。我们专注于纯文本子集,将多模态留待未来研究。我们将这个数据集命名为HLE-full。
HLE-search。HLE数据集中的大量查询不需要广泛搜索即可解决。为了更好地基准测试我们的搜索与推理目标用例,我们从HLE中识别出最需要搜索能力的查询。具体而言,我们提示Gemini-1.5-pro模型将所有查询分为[a]纯推理和[b]需要搜索两类。使用的提示可以在附录A.4中找到。最后,我们从[b]类中随机抽样200个查询。如表2所示,大型语言模型在这个精心挑选的子集上的性能明显低于完整集合。其问题领域分布也可以在图6中找到。因此,我们认为HLE-search作为我们研究重点的基准更为合适。
表1 | 在本表中,我们展示了TTD-DR在LongForm Research、DeepConsult、HLE和GAIA数据集上与不同基线系统的性能比较。胜率(%)是基于OpenAI深度研究计算的。正确性是通过系统预测与参考答案的匹配度计算的。对于HLE-full上的Grok DeeperSearch,没有提供公开数据,并且由于研究预算和Grok DeeperSearch的每日抓取限制,我们无法抓取全部2000个查询。
LongForm Research 胜率 | DeepConsult 胜率 | HLE-Search 正确率 | HLE-Full 正确率 | GAIA 正确率 | |
OpenAI 深度研究 | - | - | 29.1 | 26.6 | 67.4 |
Perplexity 深度研究 | 21.8 | 32.0 | 14.5 | 21.1 | 54.5 |
Grok 深度搜索 | 16.1 | 16.0 | 19.3 | - | 47.9 |
GPT-研究智能体 | 18.3 | 9.4 | 2.0 | 4.1 | 37.7 |
Open 深度搜索 | 2.6 | 2.2 | 3.0 | 0.4 | 20.9 |
TTD-DR(我们的) | 69.1 | 74.5 | 33.9 | 34.3 | 69.1 |
GAIA(Mialon等人,2023)是另一个评估人工智能处理现实世界问题的公共基准,包含三个难度级别的问题。完成这些任务需要推理、多模态流畅性、网页浏览和工具使用能力等。我们使用评估集与其他基线进行比较。
3.4. 实现细节
智能体框架。为了实现我们的TTD-DR,我们需要一个模块化且易于扩展的智能体系统,能够利用领先的大型语言模型(如Gemini-2.5-pro)无缝编排工作流、调用工具和执行任务。谷歌智能体开发工具包(ADK)²是最近发布的智能体开发平台,满足所有这些要求。第2节中描述的所有组件都可以使用ADK轻松实现。因此,我们选择基于ADK构建我们的深度研究智能体。
我们将最大基于检索的去噪步骤固定为20。自进化算法的其他超参数可以在附录A.6中找到。我们使用谷歌搜索³的基础来实现阶段2b中的RAG系统。
3.5. 对比系统
我们将我们的RA系统与市场上领先的RA智能体进行比较:OpenAI深度研究(OpenAI,2025)、Perplexity深度研究(Perplexity,2025)、Grok深度搜索(Grok,2025)、Open深度搜索(Alzubi等人,2025)和GPT-研究智能体(Researcher,2025)。对于不支持API的深度研究智能体,我们手动抓取并保存它们的原始输出。
图7 | LongForm Research的深度研究智能体性能与延迟之间的帕累托前沿。左:从左到右的点表示增加更多搜索/修订步骤,最多20步,这表明在相似的延迟下,我们的性能优于或与其他深度研究智能体相当。右:从左到右的点表示1)带搜索工具的Gemini-2.5-pro,2)骨干深度研究智能体,3)+自进化和4)+基于检索的扩散,这表明我们的最终算法在测试时缩放方面效率最高(斜率最陡)。
在消融研究中,我们与基线大型语言模型Gemini-2.5-pro和Gemini-2.5-flash以及它们包含简单搜索工具(简单RAG)的变体进行比较。对于我们的深度研究智能体,我们比较以下内容。1)骨干深度研究智能体是我们的骨干深度研究智能体,没有任何测试时缩放算法。2)+自进化和3)+基于检索的去噪是两个通过我们提出的测试时缩放算法增强的深度研究智能体变体。我们的深度研究智能体使用Gemini-2.5-pro作为基础模型。所有其他基线智能体使用它们的默认大型语言模型(例如,OpenAI深度研究使用o3)。
4. 结果与分析
4.1. 主要结果
表1展示了我们的TTD-DR与其他深度研究系统的性能比较。我们的TTD-DR在所有基准测试中始终取得优异结果。具体而言,与OpenAI深度研究相比,我们的方法在两个长篇研究报告生成任务的并排比较中分别达到69.1%和74.5%的胜率。此外,在三个需要广泛研究的短篇 ground-truth 答案数据集上,它分别比OpenAI深度研究高出4.8%、7.7%和1.7%。图8进一步展示了两个长篇研究任务的有用性和全面性自动评分器分数,其中我们的TTD-DR也超过了OpenAI深度研究,特别是在LongForm Research数据集上。
表2显示了我们深度研究智能体的消融研究。显然,即使是具有强大推理能力的最先进大型语言模型,如Gemini-2.5-flash和Gemini-2.5-pro,在没有任何搜索工具的情况下性能也很差。例如,在精心挑选的HLE-Search数据集上,尽管Gemini-2.5-pro在完整的HLE集合上表现相对较好(20.9%),但准确率仅为8.6%。当配备搜索工具时,两个基础大型语言模型的性能都显著提高,尽管它们的结果仍然远低于OpenAI深度研究。
现在,考察三个智能体深度研究智能体,基本深度研究智能体比带搜索工具的大型语言模型有显著改进,但仍然不如OpenAI深度研究。通过添加提出的自进化算法,我们观察到在LongForm Research和DeepConsult上,我们的系统分别以60.9%和59.8%的胜率超过OpenAI深度研究。在两个HLE数据集上的正确率也比OpenAI深度研究分别提高了1.5%和2.8%,尽管我们在GAIA上仍然落后4.4%。最后,整合基于检索的扩散在所有基准测试中都比OpenAI深度研究有显著提升。
此外,我们绘制了我们系统的帕累托前沿,以研究延迟和性能之间的权衡。在图7b中,x轴表示秒的log10。左y轴显示我们的TTD-DR在LongForm Research上相对于OpenAI深度研究的胜率。从左到右的数据点分别表示带搜索工具的Gemini-2.5-pro、DR-Agent-Base、+自进化和+基于检索的扩散,延迟逐渐增加。凸形,特别是最后两个点的上升趋势斜率,表明我们提出的两种算法每单位延迟增加提供了更多的性能提升。这表明基于检索的去噪和自进化都是高效的测试时缩放算法。
图8 | OpenAI深度研究与我们的TTD-DR在LongForm Research(左)和DeepConsult(右)基准上的单方面评估指标比较。TTD-DR的报告往往比其他深度研究智能体更有用和更全面。
4.2. 分析
本节更深入地理解我们提出的两种方法如何为深度研究智能体的改进做出贡献。
自进化相对于骨干深度研究的改进。图9显示了DeepConsult上搜索查询和答案的累积复杂性比较。复杂性通过大型语言模型(Gemini-2.5-pro)提取的关键点来衡量。我们观察到自进化显著增加了搜索过程的复杂性,这丰富了收集到的信息,从而提高了最终报告的质量。
我们的最终扩散算法允许修订和保存中间报告,使我们能够评估报告质量的逐步提升,如图7a所示。随着我们通过增加更多搜索和修订步骤来增加计算资源,我们相对于OpenAI深度研究取得了越来越显著的收益。HLE-Search的结果可以在附录A.11中找到。接下来,我们旨在理解在自进化算法的基础上,基于检索的去噪算法对这些改进的贡献。
图9 | 阶段2生成的搜索问题(左)和答案(右)的复杂性,由大型语言模型使用附录中的提示A.7和A.8提取的关键点数表示。自进化鼓励搜索问题和答案的多样性,这增强了可用信息的丰富性,从而解释了最终质量的改进。
基于检索的去噪相对于自进化的改进。图10a显示了DeepConsult上的累积搜索查询新颖性比较。新颖性通过生成的累积新点数的百分比来衡量(由Gemini-2.5-pro使用提示A.9提取)。我们可以观察到,通过将修订后的报告用于指导新查询的探索,基于检索的去噪在整个搜索和修订过程中将查询新颖性提高了超过12个百分点。在图10b中,我们展示了早期搜索和修订步骤中报告在答案中的归因(使用Gemini-2.5-pro和提示A.10计算)。值得注意的是,在步骤9,基于检索的去噪已经整合了最终报告信息的51.2%,并且在胜率上比自进化(20个搜索步骤)高出4.2%(图10c中的最后一点)。这些结果表明,基于检索的去噪有效地利用了早期阶段的信息,导致在智能体学习最有效的时候及时保存知识,如图7a所示。
图10 | 基于检索的去噪与自进化算法之间的比较。(a):阶段2生成的搜索查询中累积新点的百分比(提示A.9),这表明基于检索的去噪算法指导生成更多未探索的搜索查询。(b):最终报告在阶段2搜索答案中的累积信息归因(提示A.10),这表明我们的最终方法在早期搜索阶段及时整合了信息。(c)显示了基于检索的去噪早期步骤与具有20个步骤的自进化之间的性能差距。仅用9个步骤,基于检索的去噪已经整合了最终报告信息的51.2%,并且在胜率上比具有20个步骤的自进化高出4.2%。
5. 相关工作
我们回顾了启发我们深度研究智能体的相关工作。
测试时计算缩放。Baek等人(2024);Lu等人(2024);Zheng等人(2024)是早期利用搜索工具和测试时迭代优化算法构建研究助手/科学家智能体的努力。最近,Gottweis等人(2025)提出了一种用于生物医学研究的AI合作科学家智能体,整合了测试时算法,如辩论机制以生成新想法、锦标赛以比较和排名研究假设以及自我批判以完善研究提案。Schmidgall等人(2025)构建了一个端到端的科学论文写作智能体,在其智能体工作流的每个阶段都具有自我反思能力。值得注意的是,他们启用了一个副驾驶模式,人类可以介入并提供反馈,这被证明可以提高整体论文质量。Yamada等人(2025)设计了一个机器学习研究智能体,通过整合树搜索推理算法,能够撰写被ICLR研讨会接受的完整研究论文。Tang等人(2025)提出了一种多智能体系统,能够回顾文献、生成新想法、发明新算法、进行实验并起草可发表的论文。类似地,DeerFlow(2025)利用一个包含规划器、协调器、研究员和报告员的多智能体系统,对通用用户查询产生全面的响应。
在测试时算法中,自进化(Lee等人,2025;Novikov等人,2025;Qiu等人,2025)最近成为设计包括深度研究在内的各种智能体系统的流行框架。我们的自进化算法与这种方法有共同的精神,特别是在其进行多次自我批判和自我完善的能力方面。然而,TTD-DR与自进化的不同之处在于:1)我们的框架从根本上由人类认知行为驱动,并且我们利用检索增强扩散过程与人类写作过程之间的共性来开发我们的测试时扩散深度研究;2)自进化改进了各个智能体,以提供高质量的上下文信息来辅助主要的去噪算法。先前的工作中没有明确建模人类认知行为以及自进化与基于检索的去噪之间的相互作用。
智能体调优。最近的一些工作探索通过训练改进深度研究智能体。早期工作专注于构建能够进行深度搜索和推理的智能体RAG系统。Guan等人(2024)提出了一种多任务学习目标,结合组件级SFT数据和模型反馈,联合训练其智能体RAG系统中的每个模块。Jin等人(2025)将搜索行动和大型语言模型最终响应转换为单个序列输入,并使用最终响应奖励端到端训练RAG系统。最近,Li等人(2025b)、Zheng等人(2025)、Shi等人(2025)和Kimi-Researcher(2025)利用强化学习训练研究助手智能体,使其能够利用搜索和浏览工具收集信息并撰写报告。在我们的工作中,我们专注于测试时计算,并将智能体调优留待未来工作。
大型语言模型扩散模型。传统的大型语言模型训练范式利用自回归目标来训练模型和采样输出。大型语言模型扩散模型试图通过打破从第一个标记到最后一个标记采样的假设来提高最先进大型语言模型的可扩展性。大型语言模型扩散模型经过训练,首先生成完整的“带噪声”草稿,然后它们迭代地将多个标记去噪为完整的高质量草稿(Gemini,2025;Nie等人,2025;Yang等人,2022)。由于高度可并行化的生成处理,这一工作线有潜力在保持质量的同时实现更高的效率。我们的工作受到大型语言模型扩散模型的启发,在测试时报告撰写中引入去噪机制,但与它们不同的是,我们不训练我们的智能体;相反,我们假设大型语言模型智能体经过精心设计以执行去噪任务。
6. 结论
具有测试时扩散能力的深度研究智能体(TTD-DR)是一种新颖的研究报告生成框架,受人类研究迭代性质的启发。该智能体通过将报告生成概念化为扩散过程,解决了现有深度研究智能体的局限性。TTD-DR以初步草稿启动,该草稿是一个可更新的框架,指导研究方向。然后,该草稿通过“去噪”过程进行迭代优化,该过程由检索机制动态提供信息,在每个步骤中整合外部信息。核心过程通过在智能体工作流的每个组件上应用自进化算法得到进一步增强,确保为扩散过程生成高质量的上下文。
TTD-DR框架在各种需要密集搜索和多跳推理的基准测试中取得了最先进的结果,显著优于现有的深度研究智能体。它在生成综合长篇研究报告和为多跳搜索和推理任务确定简洁答案方面表现出卓越的性能。该框架以草稿为中心的设计指导报告撰写过程更及时、更连贯,同时减少迭代搜索过程中的信息丢失。
参考资料
• 标题:Deep Researcher with Test-Time Diffusion
• 作者:Rujun Han*, Yanfei Chen*, Zoey CuiZhu, Lesly Miculicich, Guan Sun, Yuanjun Bi, Weiming Wen, Hui Wan, Chunfeng Wen, Solène Maître, George Lee, Vishy Tirumalashetty, Emily Xue, Zizhao Zhang, Salem Haykal, Burak Gokturk, Tomas Pfister, Chen-Yu Lee
• 单位:1Google Cloud AI Research, 2Google Cloud
• 标签:深度研究智能体、大型语言模型(LLMs)、测试时扩散、自进化、检索增强、自然语言处理、多跳推理
• 概述:本文提出了 Test-Time Diffusion Deep Researcher (TTD-DR) 框架,将研究报告生成视为扩散过程,通过基于检索的去噪和组件级自进化模仿人类迭代研究行为,在多个复杂研究任务基准上超越现有方法。
• 链接:https://arxiv.org/pdf/2507.16075
本文转载自旺知识,作者:旺知识
