一、多智能体系统的优点
- 应对研究工作的不可预测性:研究工作通常面临开放性问题,难以提前预知所需步骤。多智能体系统能够根据调查过程中出现的新线索动态调整研究方向,与人类研究者类似,自主决策探索路径,适应复杂多变的研究主题,避免了线性、一次性流程的局限性。
- 促进信息压缩与专注:子智能体通过并行处理不同问题方面,利用各自独立的上下文窗口,同时探索问题的多个维度,之后提炼出重要信息传递给主研究智能体,实现对海量信息的高效压缩,同时各子智能体独立运行,减少路径依赖,保障研究的全面性与独立性。
- 性能扩展优势:当个体智能达到一定水平后,多智能体系统通过协同合作可实现性能的指数级增长,如同人类社会在信息时代因集体智慧和协作能力而取得的飞速发展。内部评估显示,以 Claude Opus 4 为主智能体、Claude Sonnet 4 为子智能体的多智能体系统,在处理需要同时探索多个独立方向的广度优先查询任务时,性能超出单智能体 Claude Opus 4 达 90.2%。
- 充分利用令牌资源:分析发现,在 BrowseComp 评估中,令牌使用量可解释 80% 的性能差异,多智能体架构通过将任务分配给具有独立上下文窗口的多个智能体,增加并行推理能力,有效扩展令牌使用,最新 Claude 模型在提升令牌使用效率方面也发挥了显著的乘数效应。
二、架构概述

- 编排 - 工作者模式:采用主智能体协调、子智能体并行工作的架构。用户提交查询后,主智能体分析查询、制定策略并创建子智能体,子智能体同时探索问题的不同方面,充当智能过滤器,通过迭代使用搜索工具收集信息并返回给主智能体,最终由主智能体整合结果并生成最终回答,区别于传统静态检索的检索增强生成(RAG)方法,该架构通过多步搜索动态发现相关信息。
- 详细工作流程:以 LeadResearcher 为主智能体,先在内存中保存计划,避免上下文窗口超限时丢失计划,然后创建多个子智能体,子智能体独立进行网络搜索、评估工具结果并返回发现,LeadResearcher 根据返回结果决定是否需要进一步研究,可创建更多子智能体或优化策略,最终将所有发现传递给 CitationAgent 处理引用,确保回答准确引用来源。
三、提示工程与智能体评估

- 像智能体一样思考:通过模拟工具观察智能体基于提示和工具的每一步操作,及时发现智能体的错误模式,如过度搜索、查询过于冗长等,以准确的心理模型为基础,针对性地优化提示。
- 教会协调者如何分配任务:主智能体需将查询分解为子任务并清晰描述给子智能体,包括目标、输出格式、工具和来源使用指南及任务边界等,避免子智能体重复工作或遗漏信息,早期因任务描述简单模糊导致子智能体误解任务或执行相同搜索,后来通过详细描述提升了任务分配的有效性。
- 根据查询复杂度调整努力程度:在提示中嵌入努力程度的调整规则,明确不同类型任务所需的智能体数量和工具调用次数,使主智能体能高效分配资源,防止在简单查询上过度投入。
- 工具设计与选择至关重要:智能体与工具的接口如同人机接口般关键,为智能体提供明确的工具使用启发式规则,如优先检查所有可用工具、匹配工具使用与用户意图等,同时确保工具描述清晰准确,以避免智能体因工具描述不佳而误用工具。
- 让智能体自我改进:Claude 4 模型具备优秀的提示工程能力,可诊断智能体失败原因并提出改进建议,通过创建工具测试智能体,发现工具关键细节和问题,优化工具描述,显著缩短后续智能体完成任务的时间。
- 先广泛搜索再逐步缩小范围:引导智能体采取与专家人类研究员类似的搜索策略,先进行简短、广泛的查询,评估可用信息后再逐步聚焦,避免智能体直接使用过长、过于具体的查询导致结果过少。
- 引导思考过程:利用扩展思考模式作为可控的草稿纸,主智能体借助思考规划方法,子智能体在工具结果后进行交错思考,评估质量、识别差距并优化下次查询,提升智能体在适应任务方面的效果。
- 并行工具调用的优势:复杂研究任务涉及多信息源探索,早期智能体的串行搜索效率低下,引入主智能体并行创建多个子智能体以及子智能体并行使用多个工具的方式,大幅缩短了复杂查询的研究时间,提高了信息覆盖范围。
四、对智能体的有效评估
- 立即开始小样本评估:在智能体开发早期,小规模测试案例就能显著展现提示调整等变更的影响,及时发现低垂果实般的显著提升效果,避免因等待大规模评估而延误优化时机。
- 大规模有效利用大型语言模型(LLM)作为评判者:研究输出通常为自由形式文本且答案不唯一,LLM 适合用于评判输出,可依据评分标准评估输出的准确性、引用准确性、完整性、来源质量和工具效率等多方面,通过单次 LLM 调用输出分数和通过 / 失败等级,实现与人类判断高度一致且可扩展的评估方式。
- 人工评估弥补自动化不足:人工测试能发现自动化评估遗漏的边缘情况,如智能体在特殊查询上产生幻觉答案、系统故障或存在细微的来源选择偏差等,有助于针对性地优化智能体的提示等,完善智能体的行为表现。
五、生产可靠性与工程挑战

- 智能体的状态保持与错误处理:智能体在长时间运行中需保持状态,为此要可靠地执行代码并处理错误,构建可在错误发生后从中断处恢复的系统,并借助模型的智能让智能体在工具失败等情况下灵活适应,结合重试逻辑和定期检查点等确定性保障措施。
- 调试新方法的需求:智能体的动态决策和非确定性增加了调试难度,添加全面的生产追踪功能,监测智能体的决策模式和交互结构等,帮助诊断智能体失败原因,系统性地解决问题。
- 部署的协调问题:智能体系统是高度状态化的持续运行系统,部署更新时需防止新代码破坏正在运行的智能体,采用彩虹部署策略,逐步将流量从旧版本转移到新版本,确保更新过程的平稳过渡。
- 同步执行的瓶颈与异步执行的挑战:目前主智能体的同步执行方式造成信息流瓶颈,而异步执行虽能增加并行性,却也带来了结果协调、状态一致性和错误传播等新的挑战,未来随着模型能力提升,异步执行的性能优势将更受重视。
六、总结
构建多智能体系统从原型到生产面临诸多挑战,如:代码的生产化改造、错误的级联效应、状态管理等,但这些系统在开放式研究任务中展现出巨大价值。
通过精心的工程设计、全面的测试、细致的提示与工具设计、稳健的运营实践以及跨部门协作,能够可靠地大规模运行,为用户解决复杂问题带来变革,如发现商业机会、辅助医疗决策、解决技术难题等。
七、额外建议
- 具有状态变化的智能体的最终状态评估:评估多轮对话中修改持久状态的智能体时,聚焦于最终状态而非每轮交互,对于复杂工作流,可设置离散检查点,确保各阶段状态变化符合预期。
- 长期对话管理:生产智能体在超长对话中需智能压缩和存储记忆,采用总结已完成工作阶段、外部存储关键信息等策略,必要时创建新子智能体并保持对话连贯性。
- 子智能体输出至文件系统以减少信息失真:通过文件系统独立存储子智能体输出,仅向协调智能体传递轻量级引用,避免信息在多阶段处理中丢失,同时降低对话历史中的令牌开销,特别适用于结构化输出的生成。
本文转载自CourseAI,作者:CourseAI