
混合智能体(MoA)框架:通过多智能体协作提升大语言模型性能
混合智能体(Mixture-of-Agents, MoA)框架正在重新定义我们如何将大语言模型(LLM)推向更高的准确性、推理深度和可靠性水平——而无需承担扩展单一巨型模型所带来的高昂成本。
MoA 并不依赖于一个“通才型”的大语言模型,而是协调一组专业化的模型,以结构化的层级进行协作,逐步优化输出结果。这种方法即使使用开源模型,也已在多个基准测试中展现出最先进的(SOTA)性能,甚至超越了如 GPT-4 Omni 等顶级专有大语言模型。
大语言模型间的协作性
为何要组合多个模型?MoA 团队发现,许多现成的大语言模型在参考彼此答案时表现更优。在 AlpacaEval 2.0 基准测试的实验中,像 LLaMA、WizardLM 和 Qwen 这样的模型,在接收到提示的同时还能看到其他模型的答案时,其表现更佳(相对于 GPT-4 参考答案的“胜率”更高)。
图1显示,当每个模型能够看到其他模型的响应时,其胜率显著提升(红色柱状图对比蓝色柱状图)——这证明了大语言模型具有“内在协作”能力,能够基于彼此的答案进行修正或验证。关键的是,即使同伴的答案比该模型单独生成的更差,这种提升依然存在。换句话说,多个视角有助于大语言模型避免盲点。这一洞察促使了MoA框架的设计:通过一个框架来整合多个模型的集体专业知识。
图1:模型“协作性”效应——当大语言模型(LLMs)获得其他模型的答案(红色)时,在AlpacaEval 2.0上的得分高于单独作答时(蓝色)。即使是顶级模型(例如Qwen 110B)也能从与同伴协作中受益,这正是MoA框架设计背后的驱动力。
MoA 的优势
MoA 采用一种结构化的多智能体方法来解决上述问题:
- 分层设计:每一层包含多个智能体,每个智能体都将前一层的所有输出作为输入。
- 角色专业化:提议者(Proposers):生成多样化的候选答案。聚合者(Aggregators):整合并优化这些候选答案,生成一个质量更高的最终输出。
- 迭代优化:每一层都基于前一层的结果进行构建,逐步提升回答的准确性和连贯性。
- 模型多样性:结合不同架构的模型,减少共有的弱点。
- 无需微调:完全通过提示词工程(prompt engineering)实现高效协作。
每个智能体都是一个大语言模型(LLM),被分配两种角色之一:提议者或聚合者。
提议者智能体
负责生成候选答案。它们“擅长产出有用的参考回答”,为问题提供丰富的上下文和多元的视角。虽然提议者自身未必能给出最佳的最终答案,但它们为整体解决方案贡献了关键的“拼图碎片”。
聚合者智能体
与提议者不同,聚合者专注于整合和优化他人的输出。一个优秀的聚合者能够将一组粗糙的答案融合成一个高质量的统一回答,即使部分输入质量较低,也能保持甚至提升最终输出的质量。
许多模型在这两种角色中都能胜任——例如 GPT-4、Qwen-1.5 和 LLaMA 在提议和聚合任务中均表现出色;而有些模型(如 WizardLM)则在担任提议者时表现尤为突出,优于其作为聚合者的表现。MoA 正是通过识别并发挥每个模型的优势,将其分配到最擅长的角色中,从而最大化整体性能。
分层迭代优化
MoA 将智能体组织成多个层级(可理解为一个小型模型流水线)。
如图2所示,一个典型的 MoA 架构包含4层,每层有3个智能体。在第一层,n 个提议者智能体独立生成对用户提示的回应。这些输出随后传递到第二层,由另一组智能体(可以是相同的模型或不同的模型)接收,并将所有前序答案作为额外上下文进行处理。因此,每一层的智能体都拥有更丰富的信息进行加工,从而实现对回答的逐步精炼。
该过程在若干层中持续进行,最终由一个聚合者智能体生成最终的整合答案。直观来看,前几层负责提出想法和部分解决方案,后几层则负责整合与润色。到了最后一层,答案已远比任何一次“初稿”更加全面和稳健。
图2:混合智能体(MoA)架构(简化为3个智能体 × 4层)
实践中的提议者 vs. 聚合者
一个关键的设计问题是:如何将模型分配到不同层级?MoA 论文提出了两个标准:
(a) 性能:性能更强的模型(单模型胜率更高)更适合放在后面的层级。(b) 多样性:使用多种类型的模型组合,确保每个模型都能带来独特的贡献。
事实上,研究发现,异构模型(不同架构或训练方式的模型)的贡献远大于同一模型的多个副本。
在 MoA 的具体实现中,最后一层通常由表现最出色的单一模型担任聚合者角色,而前面的层级则可以由一组多样化的提议者填充。有趣的是,实验表明许多顶级模型在两种角色中都表现良好,但某些模型在某一角色上明显更具优势。
例如:
- WizardLM(一种基于 LLaMA 微调的变体)在作为提议者生成创造性答案方面表现出色,但在作为聚合者整合他人内容时表现较弱。
- GPT-4(OpenAI)和Qwen-1.5(阿里巴巴)则更为全能,在提议者和聚合者两种角色中均表现优异。
这些洞察可以帮助开发者选择合适的模型组合。例如:
- 使用一个开源的、类似 GPT-4 的模型作为最终的聚合者;
- 配合多个专业化的较小模型作为提议者(如:一个专精代码的模型、一个专精推理的模型等),根据查询领域灵活调整。
基准测试结果:MoA 仅用开源模型即超越 GPT-4
MoA 架构在多个高难度基准测试中进行了评估,结果令人瞩目:即使完全不使用 GPT-4,仅靠开源模型,MoA 在整体质量上也达到了甚至超过了 GPT-4 的水平。
AlpacaEval 2.0(控制长度后的胜率)
模型/配置 | 胜率 |
MoA + GPT-4o | 65.7% |
MoA(仅开源模型) | 65.1% |
MoA-Lite(成本优化版) | 59.3% |
GPT-4 Omni | 57.5% |
GPT-4 Turbo | 55.0% |
💡 可见,仅使用开源模型的 MoA 系统(65.1%)已显著超越 GPT-4 Omni(57.5%)
MT-Bench(平均得分)
模型/配置 | 平均分 |
MoA + GPT-4o | 9.40 |
MoA(仅开源模型) | 9.25 |
GPT-4 Turbo | 9.31 |
GPT-4 Omni | 9.19 |
💡 MoA(9.25)略优于 GPT-4 Omni(9.19),接近 GPT-4 Turbo 水平。
FLASK(基于技能的评估)
在 FLASK 的多个维度评估中,MoA 全面超越 GPT-4 Omni,具体体现在:
- ✅鲁棒性(Robustness)
- ✅正确性(Correctness)
- ✅事实性(Factuality)
- ✅洞察力(Insightfulness)
- ✅完整性(Completeness)
- ✅元认知能力(Metacognition)
图3:细粒度评估(FLASK)雷达图。MoA(红色虚线)与 GPT-4(蓝色)在12项技能维度上的对比。
MoA 在多个方面表现优于 GPT-4(如事实性、洞察力),仅在简洁性上略有不足(即略显冗长)。而单独使用 Qwen-110B(红色实线)作为 MoA 的聚合器时,在多项技能上落后于完整 MoA 系统,这表明多智能体之间的协同效应显著提升了整体性能。
关键优势:高效且低成本
必须强调的是,MoA 的效率优势极为突出:上述性能提升是通过一组总体成本远低于 GPT-4 的开源模型实现的。
例如,某一 MoA 配置在 3 个层级中使用了 6 个开源模型(如 Qwen-110B、LLaMA-70B 等),其总成本仍仅为 GPT-4 API 调用费用的一小部分。
研究团队还设计了一个轻量版本——MoA-Lite:仅使用 2 个层级,并采用较小的聚合模型(Qwen-72B)。即便如此,它在 AlpacaEval 上仍以 59.3% 的胜率略微超过 GPT-4 Omni(57.5%),同时具备更高的成本效益。
换句话说,即使简化版的 MoA 也能以更低的成本超越 GPT-4 的质量水平。
这是如何实现的?
本质上,MoA 利用了“模型群体的智慧”。每个智能体贡献其独特优势:
- 有的补充知识,
- 有的检查逻辑一致性,
- 有的优化语言表达。
最终输出融合了所有智能体的专业能力,形成更优结果。
研究人员还将 MoA 与一种“朴素的 LLM 排名集成法”进行了对比。后者只是让多个模型生成答案,再由一个 LLM(如 GPT-4 或 Qwen)从中选出最佳答案,但不进行内容整合。
实验表明,MoA 显著优于这种“仅选择”方法。这证明了 MoA 中的聚合器并非简单地“挑一个最好的”,而是真正实现了思想的融合。论文甚至通过 BLEU 分数相关性分析发现:聚合器的最终回答与各提议中最优部分的重合度最高。
✅ 关键在于协作,而非选择。
成本、灵活性与实践启示
对开发者而言,MoA 的一大吸引力在于其卓越的成本效益。
通过协调多个小型开源模型,您无需为每次查询支付 GPT-4 的高昂 API 费用,也无需运行一个 1750 亿参数的巨型模型,即可获得接近甚至超越 GPT-4 的输出质量。MoA 团队提供了详细的成本分析(见图5)。
MoA 的各种配置位于“质量 vs 成本”的帕累托前沿(Pareto frontier)上——即在显著更低的成本下,实现更高的胜率。
例如:
- 某一 MoA 配置的胜率比 GPT-4 Turbo 高出4%,而推理成本却只有其一半。
- MoA-Lite(2层)以与 GPT-4 Omni 相当的成本,达到了相同的胜率,性价比持平;
- 更令人振奋的是,它以一半的成本,实现了超过 GPT-4 Turbo 的质量。
这为预算有限的应用打开了大门:您完全可以部署一组经过微调的 70 亿到 700 亿参数的开源模型,通过 MoA 架构协同工作,整体性能媲美甚至超越闭源的 1750 亿参数大模型。
图5:性能、成本与延迟之间的权衡
左侧:每查询成本(API 费用) vs. 长度控制胜率(质量)。MoA(灰色虚线帕累托前沿上的蓝/橙色点)以远低于 GPT-4(红色星标)的成本,实现了约 60%–65% 的胜率。
右侧:胜率 vs. 推理吞吐量(以 TFLOPs 衡量,作为延迟的代理指标)。MoA 再次位于帕累托前沿——通过组合多个小型模型,高效达到高质量水平。
- “单提议者”(Single Proposer):使用一个模型生成多个答案;
- “多提议者”(Multi Proposer,即 MoA):每层使用不同模型,并行运行智能体,计算效率更高。
另一大优势:灵活性
由于 MoA 完全基于提示(prompting)运行,您可以根据查询复杂度或可用算力,动态调整智能体数量或层级数。
- 需要快速、低成本的回答?使用更少智能体的MoA-Lite。
- 追求最高质量?增加一个更大规模的聚合器(甚至可以将 GPT-4 本身作为 MoA 的最终聚合器,进一步提升质量)。
该框架允许您自由组合任意可提示的开源模型。这也意味着您可以对智能体进行专业化配置:
例如:
- 在第1层加入一个专精代码的 LLM来提出编程方案,
- 加入一个专精数学的 LLM来验证计算,
- 最后由聚合器整合所有输出。
论文中的消融实验表明:使用异构模型类型(即不同类型模型组合)显著优于同质化智能体——因此,多样性是值得充分利用的优势。
实现建议
作者已在 GitHub 上公开了 MoA 的代码(包括提示脚本和模型配置),便于复现和定制:👉 https://github.com/togethercomputer/moa
如何实现 MoA?
- 每层的智能体并行运行(以最小化延迟);
- 收集输出;
- 将这些输出连同一条“聚合”系统提示(system prompt)一起,输入到下一层智能体中。
✅ 无需微调,仅需精心设计提示词(prompt engineering)即可。
实用技巧:
- 建议对智能体使用长度控制的生成,防止某个模型输出过长,确保聚合器接收到平衡的输入。
- 在选择各层模型时,建议:
将最强的模型作为最终聚合器(因其负责输出最终答案);
将较小或更多样化的模型作为前几层的提议者。
论文中默认的 MoA 配置为:3 层,每层 6 个智能体
- 聚合器:Qwen-110B
- 提议者:Qwen-72B、WizardLM-22B、LLaMA-3 70B、Mixtral-22B、Mosaic 的 MPT(dbrx)
该组合兼顾了基础性能和模型异质性。
结论
展望未来,混合智能体(MoA)指明了一种构建 AI 系统的新范式。
我们不再依赖单一的“全能型”巨型模型,而是可以组建一支由专业化模型组成的团队,通过自然语言协同工作——这类似于人类团队的协作方式。
例如,在医疗场景中:
- 一个智能体提出可能的诊断;
- 另一个智能体核对医学数据库验证结果;
- 第三个智能体(聚合器)整合所有信息,形成最终建议。
这类智能体生态系统通常更具鲁棒性和透明度:您可以追踪每个智能体的贡献,从而更容易理解并信任最终输出。
研究表明,即使当前的模型无需额外训练,也能有效协作。一旦协作,其整体表现就能超越任何单一模型独立工作的结果。
对于生产级 AI 应用,MoA 提供了一条实用且成本效益高的路径:通过组合开源模型,实现 GPT-4 级别的质量,而无需支付单一闭源大模型的高昂费用。
随着开源大语言模型持续进步,MoA 风格的架构很可能成为主流——通过协作而非模型规模来提升性能。
“大语言模型作为团队成员”的时代,才刚刚开始。
核心要点总结
优势 | 说明 |
✅ 协作提升质量 | 多个 LLM 交换并优化彼此输出,即使部分输入较弱,也能利用“协作性”效应提升整体表现。 |
✅ 分层逐步优化 | 每层智能体都能看到前序输出和原始提示,实现逐步精炼。 |
✅ 基准测试表现优异 | 在多个基准上超越成本更高的模型。 |
✅ 成本效益高 | 使用更便宜的开源模型即可匹配甚至超越 GPT-4 质量;MoA-Lite 在低算力下仍表现强劲。 |
✅ 高度灵活 | 可轻松替换为领域专用模型,或调整层级以平衡速度与质量。 |
✅ 面向未来 | 代表向“多智能体 AI 系统”的转变,模拟专家团队协作,有望成为生产级 LLM 部署的标准范式。 |
参考文献
混合智能体(MoA)架构由 Wang 等人于 2024 年提出:https://arxiv.org/pdf/2406.04692
本文转载自PyTorch研习社,作者:南七无名士
