智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作

发布于 2025-9-11 00:17

浏览

0收藏

多智能体系统（MAS）是一支由不同专长成员组成的虚拟团队，有精于数学推理的成员，也有擅长规划与策略设计的高手，他们通过角色分工和结构化流程，共同破解难题。这种分工协作不仅能显著提升效率，还能将单一模型无法触及的深度任务迎刃而解。

但是无论是精心设计的角色分工，还是巧妙搭建的投票与融合机制，现有系统往往在“如何让各专家在对话中真正理解彼此”这一环节失之交臂。他们更多关注最终答案的质量，却忽视了智能体间深度沟通与动态调整的重要性。

为此，OSC（Orchestrating Cognitive Synergy）框架应运而生。它不仅在专家选择与结果聚合之间插入一层“自适应协作引擎”，更通过协作者知识模型（CKM）和学习型认知差距分析（fgap），让每位智能体都能对同伴的认知状态进行实时建模。再结合PPO强化学习驱动的通信策略（πcomm），OSC让多智能体真正迈向“深度协作”的境界。

这支由中山大学和阿里巴巴集团联合打造的团队，将学术前沿的认知建模与工业级的系统优化无缝融合，团队成员有Jusheng Zhang, Yijia Fan, Kaitong Cai，Keze Wang，Xiaofei Sun。他们的跨界合作，既确保了理论的严谨性，也兼顾了产业应用的可行性。

1.相关工作

LLM驱动的多智能体系统

多智能体协作的早期尝试，多以“角色分工+流程设计”为主。研究者常将LLM模拟为产品经理、程序员、测试人员等固定角色，并通过预定义的脚本或结构化工作流，让它们按部就班地完成任务。

这种做法在软件开发、知识检索等场景中取得了一定成功，但却存在内在的僵化：每位代理的协议都是在预设范围内运转，遇到新问题时无法灵活调整彼此的沟通方式。

智能体选择与结果聚合

为了提升效率，学界提出了知识感知路由——根据任务类型将最合适的专家分配给子任务；又或者引入动态路由机制，凭借历史表现实时调整任务分配。

然而，当所有子任务完成后，再通过投票、自我评估或分层信息融合等手段合成最终答案。这些方法能提升整体准确率，却将协作过程视为黑箱，对智能体在对话中如何交换信息、化解分歧毫不关心。

智能体间通信机制

在通信层面，Chain-of-Thought 提示可以让多智能体共享推理链，辩论框架和谈判机制也被用来磨砺和精炼方案；甚至有人尝试通过共享记忆或增量学习来保持长周期的协作状态。

可惜这些机制往往是“静态”的：它们没有能力根据对话进展实时判断谁真正理解、谁产生误解；也缺乏系统化的认知建模来指导交互策略。

OSC的创新定位

OSC的独特之处正是在专家选择与答案聚合之间，搭建了一个专门用于自适应协作的中间层。它利用协作者知识模型实时描摹每位代理的认知画像，再通过学习型认知差距分析动态捕捉理解偏差，并由强化学习驱动的通信策略，精准地调整交互内容、风格与目标。整个框架如同一位“指挥大脑”，让多智能体从并行工作者蜕变成真正意义上的“协同认知团队”。

智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作-AI.x社区

图1:OSC框架使用协作者知识模型（CKMs）

2.OSC框架概览

在多智能体 LLM 协作的全流程中，OSC 担任连接“专家选择”与“答案聚合”两端的关键中枢。

首先，由外部模块根据任务类型和模型能力，从模型池中“挑选”出若干专家；随后这批专家进入OSC 的中间层，开启多轮自适应协作推理；最后，经由聚合器将各专家的精炼输出整合成最终答案。

整体架构如同一座桥梁：

专家选择阶段确保每一次召集都精准匹配任务需求
OSC 中间层通过持续的认知感知与动态对齐，让各智能体在对话中互相补全理解、快速达成共识
答案聚合阶段则负责提炼各方智慧，输出高质量、连贯一致的系统答案

自适应协作推理是 OSC 的核心。这里并非让智能体仅仅“轮流发言”，更是一场有策略的“认知编排”——智能体之间通过协作者知识模型实时洞察彼此认知状态，利用认知差距分析甄别误解或分歧，再凭借强化学习优化的通信策略，精准调整信息焦点、表达层次与交互风格，最终形成高效、深入的团队协作。

3.技术细节解读

动态协作者知识模型（CKM）

OSC 以 CKM 为基石，为每对智能体构建一条隐式的“认知通道”。这条通道源于一组广泛的候选认知维度——从语言学标记、常见推理模式，到任务无关的对话行为，全都纳入初始全集。

CKM 并不人工挑选哪几项有效，而是由模型自行学习关注最具任务相关性的部分，生成一组 128 维的潜在向量，刻画在对话第t轮的知识、推理信心和任务理解。

其内部结构由两部分组成：一是基于 Transformer 编码器的 fCKM，用来从对方最新发言和对话历史中提取潜在认知特征；二是 GRU 实现的 fupdate，用于将上轮的向量与新消息融合，输出更新后的 z。在强大的自监督预训练后，这两套模块还会在OSC 的端到端强化学习循环中继续微调，让 CKM 表示精准服务于最终任务。

学习型认知差距分析（fgap）

仅仅建模并不够，还需识别“共识缺口”。OSC 通过可学习的差距函数 fgap，将智能体的内部状态表示 Φ与对协作者e的认知模型z投影到同一语义空间，并以多头注意力＋前馈网络的形式，输出一组差距指标G。

这一指标有的指向事实理解偏差，有的反映推理路径差异，甚至可捕捉目标设定不一致。OSC 以此为依据，动态设定通信目标，无需人为固定，保证每次对话都直击协作瓶颈。

自适应通信策略（πcomm）

有了对自身与他人认知的双重洞察，怎样说才最有效？πcomm 给出了答案。它以 Transformer 编码器为骨干，将以下五大信息拼接成智能体决策的“认知大图”：

智能体自身的认知状态 Φ
对所有协作者的 CKM 表征集合
对所有协作者的认知差距矩阵
当前任务查询 Q
累积对话历史 Ht

在此复合状态下，πcomm 输出一个结构化动作：包含动态决定的通信目标（如“澄清细节”或“提出验证”）、目标受众（某位或多位协作者）以及细腻的风格和焦点参数（层次深度、情感色彩、论证方式等）。动作一经生成，便通过专门的 prompt 模板交给生成型 LLM，自然地化作一句切中要害的对话内容。

这一决策网络在 PPO 强化学习中不断优化。它的奖励不仅包含任务成功的外部回报，也加入了通信成本惩罚与针对认知差距显著缩小的内在奖励。通过反复试验，πcomm 学会在最小的轮次和信息量里，完成最有效的协作交流。（编辑注：由于数学符号不能全部正确显示，请专业读者查看原文）

4.策略指导的语言实现

在 OSC 中，每一次通信都源于 πcomm 输出的抽象通信动作，这份“认知蓝图”精确定义了要解决的认知差距、面向的协作者以及内容和表达风格。然而仅有蓝图还不够，还需要将其渲染成自然流畅、上下文贴切的对话文本。这里，OSC 借助生成型 LLM（fLLM）完成从“抽象”到“自然语言”的华丽蜕变。

抽象通信动作首先被送入一个Prompt 生成函数，该函数动态整合三大信息：

πcomm 选定的动作要素（通信目标、受众与风格参数）
发信者自身的内部认知状态（如当前计划片段或假设）
协作者知识模型（CKM）中对目标受众的认知洞见（如可能的误解或信息缺口）

基于这些信息，Prompt 生成函数会构建一段丰富且针对性极强的指令，示例化地告诉 fLLM：“请以说服力强的说明风格，针对 B 代理在子任务 X 上的理解偏差，提出一道具体的澄清问题。”随后，fLLM 仅需专注语言实现，快速生成一条清晰、有理有据的消息。

在这一流程中，OSC 与 LLM 各司其职：OSC 决定“要说什么、说给谁、要达到什么效果”，而LLM 专心“如何表达、用怎样的措辞与句式最得体”。这样的职责分工既保障了高层协作意图的精准贯彻，也大大降低了生成失控的风险。

5.实验评估与分析

主要实验设置

OSC 的实力，得益于多样化的专家模型池与严谨的对照实验。研究团队选用了六款强大的开源 LLM：

Qwen2-72B-Instruct
LLaMa-3-70B-Instruct
WizardLM-2-8x22B
Gemma-2-27B
Deepseek-V3
Deepseek-R1

Qwen2-72B-Instruct 同时担当答案聚合器，确保与现有系统（如 KABB、MoA）在相同基础上进行公平比拼。评测基准涵盖 AlpacaEval 2.0（805 条指令的 LC win 率与标准win 率）和 MT-Bench 多轮对话得分，辅以单模型对照（OSC-Single-LLaMa3）和各大 GPT-4 版本、Claude 3.7 等专有模型。

智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作-AI.x社区

表1:OSC（Our）和其他模型在AlpacaEval 2.0和MT试验台上的比较。MoA（具有2层）与KABB和OSC设置共享类似的专家模型配置，涉及6个不同的提议者和1个聚合器。

对于AlpacaEval 2.0，GPT-4变体、LLaMa-3-70B-Instruct和Qwen2-72BInstruct的性能来自公共排行榜；WizardLM-2-8x22B的结果来自之前的工作。我们在AlpacaEval 2.0上复制了Deepseek-V3、Deepseek-R1和Gemma2-27B的结果。对于MT Bench，我们进行了评估以获得基于轮次的分数，但GPT-4变体、LLaMa-3-70B-Instruct和WizardLM-2-8x22B的结果除外，这些结果来自之前的工作。OSC（我们的）结果证明了其先进协作机制的好处。

性能对比

在 AlpacaEval 2.0 上，OSC 达到81.4% 的 LC win 率和76.2%的标准 win 率，超越 KABB（77.9%/72.3%）与 MoA（68.1%/65.4%）。MT-Bench 上，OSC 同样以9.94的平均得分登顶，在首轮（9.96）与次轮（9.73）表现均领先。单模型场景下，OSC-Single-LLaMa3 也以 36.1% LC win 率小幅领先 KABB-Single-LLaMa3（34.7%）与基线 LLaMa-3-70B-Instruct（34.4%），再度证明自适应协作框架的加成效果。

智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作-AI.x社区

图2:AlpacaEval 2.0的性价比权衡。OSC配置（六边形）与KABB（全）（圆形）、单个模型（三角形）和专有模型（星形）进行比较。OSC展示了强大的帕累托前沿，相对于成本优化了性能。虚线连接OSC配置，强调通过增加但高效管理的专家协作来提高性能。

通信效率与质量

不仅答对率高，OSC 的对话过程也更简洁高效。与 TalkHier、REMALIS、DyLAN、MAC 等对比，OSC 平均仅需4.6 轮、约3.3k Tokens完成任务。通信冗余率低至14.2%，冲突解决率高达89.5%，任务相关信息密度更是达到了84.5%，远超其他框架的 79%–83% 区间。这些数据清晰地反映出 CKM 与认知差距驱动的 πcomm 在提升协作精准度与减少无效交流方面的显著作用。

关键组件消融

通过去除 CKM、fgap、πcomm 或 rshape 逐一消融实验，可以直观量化各模块的价值：

去除 CKM 后，LC win 率骤降至71.2%，通信轮次与冗余大幅上升
去除 πcomm 时，仅剩 69.4% 的LC win 率，通信负担倍增
去除 fgap 或 rshape 也分别导致性能与效率明显下滑

消融研究表明，CKM 与动态通信策略是 OSC 卓越效果的中流砥柱，学习型差距分析与内在奖励则进一步提升了系统的稳定性与敏捷性。

可扩展性研究

团队逐步将智能体规模从 2、4、6、8 增至 10，发现中等规模（6 agents）可兼顾深度协作与协调开销，取得 81.4% 的最佳 LC win 率。代理过少时视角受限，过多时沟通轮次与 Token 数迅速上涨，冲突解决率从 91.7% 回落到 87.8%。OSC的核心模型在 6 agents 环境下冗余最低（12.6%）、信息密度最高（86.2%），展现了良好的可扩展平衡。

价格–性能平衡

在 AlpacaEval 2.0 上，OSC 以 1–6 agents 不同配置描绘出一条清晰的性能–成本 Pareto 前沿。6 agents 配置实现最高 81.4% LC win，平均成本约 $0.97/条；相比 KABB（77.9%/$0.91）和专有 GPT-4o、Claude 3.7，仅需 3–4 agents 就能达到同级或更优的成绩，却将单条调用成本压低至不到 $0.6。对于预算敏感的应用场景，OSC 提供了灵活可调的高性价比方案。

预训练与微调影响

仅靠 CKM 与 fgap 的自监督预训练，OSC已可达到 76.8% 的 LC win，但通信轮次偏多（5.1 轮）且信息量更大（3.45 k Tokens）。在此基础上进行端到端微调后，系统迅速攀升至 81.4% 的 LC win，平均轮次降至 4.3 轮，Token 数也缩减至2.87 k。对比 KABB 框架，这一微调增益体现了动态协作模型与差距分析的真实价值，为多智能体协作实用化奠定了坚实基础。

智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作-AI.x社区

图3：与仅预训练的方法和KABB基线相比，微调CKM和fgap模块可以提高任务成功率（LC胜率）和通信效率（平均轮次和令牌）。

6.创新讨论

OSC 的核心创新在于将“知识感知”与“策略驱动”融入多智能体协作的每一次对话，将分散的专家个体锻造为一个真正意义上的认知团队。

通过持续更新的协作者知识模型，系统能够精准捕捉每位代理的理解水平与推理信心；借助学习型认知差距分析，OSC 可以实时识别误解和分歧；再加上强化学习优化的通信策略，它以极少的交互轮次和信息量，达成高效的共识与方案优化。这样的设计不仅在学术基准上取得了领先，更为实际应用场景——从智能客服到企业决策支持——提供了可行的协作范式。

尽管 OSC 展示了强大的协同潜力，我们也清晰地看到其在规模扩展和精准建模方面的挑战。研究表明，当智能体数量超过最佳的中等规模（约 6 个）时，CKM 更新延迟和内存占用显著上升，冲突解决率出现下滑。这反映出，对每位协作者进行高维度认知建模，始终会随着团队规模的膨胀而面临计算与协调负担。

另外，框架对形状化内在奖励的依赖，也意味着在完全依赖稀疏的任务回报时，学习效率将大幅下降。超参数如通信轮次和成本权重的设计，也需在不同应用中反复调试，才能兼顾深度与简练。

面对这些局限，OSC 的下一步改进方向尤为清晰。一方面，可以引入动态超参数优化机制，让系统根据实时协作反馈自适应调整通信轮次、成本惩罚强度等关键参数，无需人工反复试验。另一方面，冲破单一领域的局限，将 OSC 框架推广到跨领域协作中：比如将对话式推理应用于医学诊断、金融分析，或与多模态模型联动，融合语音、图像和文本信息，共同完成复杂任务。

此外，引入分层式专家管理与轻量级增量更新，有望在保持高效对齐的同时，进一步降低资源开销。未来，随着更多行业应用落地，OSC 也可以结合在线学习和模型蒸馏技术，让多智能体系统在真实场景中持续进化。

7.结论

OSC 通过“动态知识对齐+自适应通信策略”的创新组合，打破了传统多智能体系统难以深入协作的瓶颈，实现了对话驱动的认知编排。

协作者知识模型（CKM）让每位代理都能随时洞察同伴的认知状态，学习型认知差距分析（fgap）揭示了分歧所在，而基于 PPO 的通信策略（πcomm）则以最精准的方式消解误解、推动共识。实验结果表明，OSC 在 AlpacaEval 2.0 和 MT-Bench 等多项基准上均取得显著领先，既提升了任务成功率，又大幅优化了通信效率。

从行业落地角度来看，OSC 为多智能体协作应用提供了一条清晰路径：无论是多角色客服系统，还是复杂业务流程自动化，它都能让不同模型或服务模块之间实现真正的深度协同。

对于后续研究，OSC 的设计思路可推广至更多场景：基于实时数据动态调整认知模型、在低资源环境下实现小规模团队高效协作，乃至与跨模态、多任务学习相结合。伴随着多智能体技术在商业和科研领域的不断深入，OSC 所揭示的“从并行个体到协同认知团队”的范式，将引领下一代 AI 协作系统的创新潮流。

参考资料：https://arxiv.org/pdf/2509.04876

本文转载自波动智能，作者：FlerkenS

标签

智能体

LLM

CKM

已于2025-9-11 00:25:09修改

社区头条

51CTO

51CTO博客

51CTO学堂

智能体团队的“指挥官”，OSC赋能多智能体LLM的高效协作

1.相关工作

LLM驱动的多智能体系统

智能体选择与结果聚合

智能体间通信机制

OSC的创新定位

2.OSC框架概览

3.技术细节解读

动态协作者知识模型（CKM）

学习型认知差距分析（fgap）

自适应通信策略（πcomm）

4.策略指导的语言实现

5.实验评估与分析

性能对比

通信效率与质量

关键组件消融

可扩展性研究

价格–性能平衡

预训练与微调影响

6.创新讨论

7.结论

目录