
OpenAI Deep Research AI代理架构
图片
关键考量
工具和AI代理的数量之间存在一个最佳平衡点。
确实,所有这些AI代理可以合并成一个拥有多种工具的AI代理。但工具数量和AI代理数量之间有一个最佳平衡点——当一个AI代理的工具过多时,工具选择可能会出问题。对此,NVIDIA在微调语言模型以实现精准工具选择方面做了很棒的研究。
OpenAI的总体思路似乎是多个AI代理协作与编排。
建立上下文和多个AI代理的协作非常重要……这让我们回想起聊天机器人的最初基础——明确意图很重要。对于通常需要长时间运行的研究请求,牢牢确立意图和上下文尤为关键。
每个AI代理使用不同的语言模型,这一点很有趣。从使用成本较低的模型处理子任务,到在发送昂贵且长时间运行的查询之前充分准备用户查询,这种方式很值得关注。
通过将工具与任务匹配,你可以优化效率,降低成本,并确保AI在应用中的可扩展性。
具体用途
当处理需要战略规划、从多样化来源综合信息、整合专业工具或多步骤推理的复杂任务时——比如进行深入的市场分析、调试复杂的代码问题或生成全面的研究报告——可以利用深度研究代理。
它们擅长编排工作流程,适应不断变化的上下文,通过将问题分解成可管理的部分并根据需要迭代,交付细致入微的输出。
反过来,只在这种高要求场景下使用它们。
对于日常需求,比如快速检索事实、简单的问答交互或短暂的对话,使用标准的OpenAI Chat Completions API即可。
这个更简单的接口提供:
- • 更快的响应时间,
- • 更低的计算开销,
- • 更低的成本,
非常适合高流量或低复杂度的使用场景,避免了代理编排带来的额外延迟。
在AI系统设计中,一个拥有多种工具的单一AI代理可以减少延迟,但随着复杂性增加,可能会导致过载和错误。另一种方式是多个AI代理拥有有限的工具,促进模块化,就像OpenAI的Deep Research API那样,专门的AI代理处理分类、澄清和研究——提升透明度和可扩展性,尽管增加了交接开销和成本。选择取决于任务复杂度和需求。
四代理深度研究流水线
分类代理(Triage Agent)
嘿,我会仔细检查用户的查询,看看是怎么回事。
如果感觉缺少一些关键上下文,我会把它交给澄清代理去深入挖掘。否则,如果一切看起来没问题,我就直接把它交给指令代理,继续推进。
澄清代理(Clarifier Agent)
我负责通过提出关键的后续问题来澄清事情。
然后,我会耐心等待用户——或者一个模拟的回应——提供我们需要的答案。
指令构建代理(Instruction Builder Agent)
一旦我们有了更丰富的输入,我就上场,把它转化成一个超级精准的研究简报,随时进入行动。
研究代理(Research Agent, o3-deep-research)
我利用WebSearchTool深入进行网络规模的实证研究,收集所有重要细节。
与此同时,我会用MCP检查我们的内部知识库——如果有相关内容,我就拉取这些有用的片段来充实我的参考资料。为了让你了解进展,我会在过程中实时输出中间事件,确保完全透明。
最后,我会交付一个精炼的Research Artefact,稍后可以解析。
可观察性
print_agent_interaction
函数(在OpenAI Cookbook的Deep Research API代理示例中也称为 parse_agent_interaction_flow
)是一个方便的工具,用于可视化和调试多代理系统的动态工作流程。
它接收AI代理事件流作为输入,逐项迭代,打印一个清晰的、带编号的序列,突出关键活动,比如代理交接、工具调用(包括名称和参数)、推理步骤和消息输出,前面都带有相关代理的名称,便于跟踪。
这对开发人员构建复杂研究流水线非常有价值,因为它将原始事件数据转化为人类可读的格式,在测试或监控时提升透明度——可以把它看作一个轻量级的跟踪记录器,跳过无关细节,聚焦于分类、澄清、指令构建和研究组件之间的核心交互。
最后
下一个前沿是实现不同组织中的AI代理之间的协作。
其次,是AI代理融入人类世界的复杂网络浏览和操作系统导航。
本文转载自AI大模型观察站,作者:AI大模型观察站
