
LLM 驱动的 AI Agent通信:协议、安全风险与防御对策 原创 精华
随着大型语言模型(LLM)技术的飞速发展,以其为核心驱动的 AI 智能体正展现出前所未有的智能水平与适应能力,深刻改变着人类的生产与生活方式。如今,智能体不再是孤立存在的个体,而是逐渐形成了一个相互协作的生态系统,通过与其他智能体、工具及外部环境进行通信,共同完成复杂任务。在此背景下,智能体通信已成为未来 AI 生态系统的基石,众多组织纷纷投身于相关通信协议的研发,如 Anthropic 提出的 MCP(Model Context Protocol)和 Google 推出的 A2A(Agent-to-Agent Protocol)。然而,这一新兴领域也暴露出诸多安全隐患,可能对现实世界造成严重危害。论文围绕智能体通信的协议、安全风险及防御对策展开详细探讨,并以针对MCP和A2A的攻击实验为例帮助读者理解智能体通信带来的独特风险。
1. 智能体通信的兴起与重要性
随着LLM驱动的智能体应用的不断深入,其发展呈现出领域专业化的趋势,即针对特定场景和任务进行定制化设计。在这种情况下,一项复杂任务的完成往往需要多个不同领域的智能体协同合作,这些智能体可能分布在全球互联网的各个角落。因此,智能体之间的有效通信成为了实现协同工作的关键,它使得智能体能够发现具备特定能力的同伴、获取外部知识、分配任务并进行其他形式的交互。
目前,智能体通信市场潜力巨大,吸引了众多企业和研究机构的关注。2024 年 11 月,Anthropic 提出的 MCP 协议允许智能体调用外部环境,如数据集、工具和 API,迅速获得了广泛关注,已有数百企业宣布接入该协议,其相关包的周下载量超过 300 万次。2025 年 4 月,Google 提出的 A2A 协议支持智能体之间的无缝通信与协作,同样获得了微软、Atlassian、PayPal 等众多企业的支持。这些突破充分表明,智能体通信正带来快速而深远的变革,将成为 AI 生态系统中不可或缺的一部分。
2.智能体通信的定义与分类
**定义:**智能体通信是指当智能体完成任务时,通过标准化的协议框架与多样化的元素进行多模态信息交换和动态行为协调,并最终将结果返回给用户的过程中所涉及的所有通信行为。这一定义包含以下关键条件:
- 智能体通信是任务驱动的,所有通信行为都必须在用户分配任务的前提下发生。即使某些通信指令来自其他智能体,其根源也可追溯至原始的用户指令。
- 通信对象中至少有一方是智能体。智能体可以与用户、其他智能体或环境中的工具等进行通信,只要其中一方为智能体,即可视为智能体通信。
分类:
- 用户 - 智能体交互:指智能体接收用户指令并向用户反馈执行结果的交互过程。例如,用户向智能体下达 “制定一份去北京的旅行计划” 的任务,智能体完成任务后将计划反馈给用户。
- 智能体 - 智能体通信:指两个或多个智能体通过标准化协作协议,为协同完成用户分配的任务而进行协商、任务分解、子任务分配和结果聚合的通信过程。比如,负责制定旅行计划的智能体将查询天气、预订机票和酒店等子任务分配给相应的专业智能体。
- 智能体 - 环境通信:指智能体通过标准化协议与环境实体(如工具、知识库及其他有助于任务执行的外部资源)进行交互,以完成用户任务的通信过程。例如,智能体查询在线数据库获取北京的天气信息。
3. 智能体通信协议解析
3.1 用户 - 智能体交互协议
- PXP 协议:该协议主要用于构建人类专家与智能体在数据分析任务中的交互系统,尤其针对复杂的科学、医疗等领域。
- Spatial Population Protocols:这是一种极简且计算高效的分布式计算模型,专为解决机器人系统中的分布式定位问题设计。
- AG-UI:基于客户端 - 服务器架构实现用户(前端应用)与智能体的通信,采用事件驱动机制完成通信过程,客户端通过订阅事件流处理不同类型的响应。
3.2 智能体 - 智能体通信协议
3.2.1 基于客户端 - 服务器(CS)的通信协议
采用集中式服务器管理智能体信息,智能体通过定义良好的接口进行交互,并依赖集中式服务器发现所需智能体。
- ACP-IBM:IBM 提出的智能体通信协议,客户端先通过该协议在代理服务器上发现可用智能体并获取其能力描述,支持多种发现机制。
- ACP-AGNTCY:AGNTCY 提出的开放标准协议,便于智能体之间的无缝通信。
- ACP-AgentUnion:AgentUnion 提出的协议,旨在实现异构智能体之间的无缝通信。
3.2.2 基于点对点(P2P)的通信协议
追求去中心化的智能体发现机制,通常使用全球通用标识符使智能体能够直接在互联网上搜索其他智能体。
- ACN(Agent Communication Network):一种去中心化的点对点通信基础设施,不依赖集中式协调,利用分布式哈希表,使智能体能够发布和发现公钥,建立加密的点对点通信通道。
- ANP(Agent Network Protocol):一种开放的通信框架,旨在实现异构自主智能体之间的可扩展和安全互操作。支持主动和被动两种智能体发现方式。
- LOKA(Layered Orchestration for Knowledgeful Agents):旨在构建可信赖和符合伦理的智能体生态系统。引入通用智能体身份层(UAIL),使用去中心化标识符(DIDs)和可验证凭证(VCs)为每个智能体分配唯一可验证的身份。
3.2.3 混合通信协议
支持基于 CS 和 P2P 的两种智能体发现方式,根据不同场景灵活选择。
- LMOS(Language Model Operating System Protocol):Eclipse 提出的协议,旨在使来自不同组织的智能体和工具能够轻松被发现和连接。支持三种智能体发现方法。
- A2A(Agent to Agent Protocol):Google 提出的协议,旨在实现智能体之间的协作。支持三种智能体发现机制。
3.2.4 其他协议
未明确说明其独特的智能体发现设计,主要关注通信过程。
- Agora:用于异构智能体通信的协议,其核心机制是根据通信频率动态切换通信模式。
- AITP(Agent Interaction & Transaction Protocol):一种标准化框架,支持智能体之间的结构化和互操作通信。
- Agent Protocol:LangChain 提出的协议,用于实现 LanghGraph(一种多智能体框架)与其他类型智能体的通信。
3.3 智能体 - 环境通信协议
- MCP(Model Context Protocol):提供了一种统一的、与模式无关的通信协议。旨在促进语言模型智能体与外部资源(如工具、API 或工作流)之间基于上下文感知和能力驱动的通信。
- API Bridge Agent:构建在 Tyk 网关之上,用于连接 LLM 原生意图与下游 MCP 或 OpenAPI 兼容服务,提供翻译、路由和编排功能。
- 函数调用机制:在调用层面,智能体依赖标准化格式来表达、触发和处理工具执行。
- OpenAI Function Calling:允许开发人员通过描述函数名称、描述和参数结构的 JSON 模式向模型暴露自定义逻辑。
- LangChain Tool Calling:通过更丰富的抽象层增强函数调用范式,工具通过标准化模式定义,包括参数类型、输入输出后处理和插件注册,可通过运行时注册表访问,支持嵌套调用、条件和回退策略。
- Agents.json:作为标准化的元数据格式,基于 OpenAPI 基础但为智能体使用进行了定制,使开发人员能够定义认证入口点、输入输出类型和多步骤编排计划(如流程和链接)。
4. 智能体通信安全风险分析
4.1 用户 - 智能体交互安全风险
用户 - 智能体交互过程中,由于用户输入具有多模态特性,安全风险主要源于这些不安全的输入,同时被攻陷的智能体也可能对良性用户造成危害。
4.1.1 恶意用户对良性智能体的攻击
- 基于文本的攻击:攻击者通过精心设计的恶意提示操纵智能体行为或绕过安全机制,无需修改模型参数或架构,具有高度的隐蔽性和适用性。包括提示注入(通过嵌入在用户输入或外部来源中的对抗性提示操纵智能体预期行为,分为直接提示注入和间接提示注入)和越狱攻击(一种更具攻击性的提示注入形式,通过多轮推理、角色扮演、模糊表达等技术设计越狱提示,完全绕过安全约束,诱导模型生成有害、敏感或受限制的内容)。
- 多模态攻击:随着用户 - 智能体交互涉及图像、音频等多种模态,智能体系统面临新的安全威胁,攻击者可利用非文本输入通道隐蔽地绕过安全机制。包括基于图像的攻击(操纵视觉输入通道误导智能体系统,如视觉伪装、视觉推理、对抗性扰动和嵌入空间注入)和基于音频的攻击(针对语音控制的智能体、智能助手和具有自动语音识别(ASR)组件的多模态模型,通过合成语音或对抗性音频注入非预期命令、冒充合法用户或导致未授权操作)。
- 隐私泄露:在缺乏有效数据治理的情况下,丰富的感知数据可能被恶意用户利用,发起各种形式的隐私泄露攻击。例如,MASLEAK 可在黑盒场景下,通过精心设计的对抗性查询模拟计算机蠕虫的传播机制,提取智能体系统的敏感信息,如系统提示、任务指令、工具使用情况、智能体数量和拓扑结构等。
- 拒绝服务(DoS):攻击者可通过在训练或微调阶段对模型进行投毒,使受损模型在收到特定指令时触发恶意行为,如生成过长、冗余的输出,导致资源耗尽或输出被拒绝。另一种新兴的拒绝服务攻击形式是通过诱导模型 “过度思考” 来减缓其推理过程,如 OverThink 攻击中,攻击者将诱饵推理任务注入模型上下文,导致模型进行不必要的冗余链式推理,增加令牌消耗、降低推理速度并增加计算成本。
4.1.2 恶意智能体对良性用户的危害
- 侵犯用户隐私:被攻陷的智能体成为数据泄露的渠道,直接针对用户的敏感信息,包括暴露个人信息(泄露用户可识别信息(PII)和金融数据等)和进行行为与心理分析(分析用户跨会话输入,在用户非自愿的情况下构建详细的行为或心理档案,甚至从看似无害的对话数据中推断出高度敏感的属性)。
- 心理和社会操纵:被攻陷的智能体可利用用户的信任和自身的说服力,成为心理操纵的强大工具,包括塑造信念和观点(随时间向用户的响应中巧妙引入有偏见的信息、阴谋论或政治宣传,操纵用户的世界观)和进行复杂的社会工程与冒充(利用对用户通信风格、词汇和关系的了解,进行高度可信的冒充攻击)。
- 执行恶意和有害任务:智能体一旦被攻陷,就可能从可信助手转变为恶意任务的执行者,危害用户利益或直接危及用户安全,包括经济操纵(在专业或经济环境中造成潜在损害,如在代码中引入逻辑错误、在财务预测中提供有缺陷的数据等)和恶意指导(作为攻击用户数字环境的直接载体,如生成下载恶意软件的脚本、诱使用户访问钓鱼网站等)。
4.2 智能体 - 智能体通信安全风险
智能体 - 智能体通信的安全风险呈现出多面性,基于 CS 架构和 P2P 架构的通信各有其特定风险,同时两者也面临一些通用风险。
4.2.1 基于 CS 架构的通信风险
集中式架构使中央服务器成为攻击者的主要目标,面临多方面的安全威胁。
- 注册污染:当前基于 CS 的通信协议在注册资格方面缺乏明确规定,攻击者可恶意注册模仿合法智能体标识符和能力描述的智能体,导致系统错误调用伪造智能体并接收误导性或恶意响应;也可在短时间内提交大量智能体注册,导致注册过载(智能体在发现和调度过程中不堪重负,增加服务器的查找延迟和计算开销)和注册阻塞(服务器的注册接口饱和,导致合法智能体注册延迟或失败)。
- 描述毒化:攻击者在不改变智能体身份的情况下,通过伪装智能体的预期功能或嵌入误导性提示指令,篡改其能力描述,操纵系统对智能体角色的理解,导致错误的路由决策和有偏见的响应与行为。
- 任务洪泛:中央服务器负责接收、路由和调度任务请求,攻击者可在短时间内提交大量计算密集型或长上下文任务,迅速耗尽服务器的内存、CPU、网络或线程池资源,导致服务器饱和,无法及时处理后续请求,造成整个流程中断和系统级服务中断。
- SEO 毒化:借鉴社交网络中的 SEO 毒化攻击,攻击者在了解智能体服务器的搜索算法后,通过关键词填充、虚假链接、内容劫持等欺骗手段,人为提高恶意智能体在搜索结果中的排名,劫持所需任务。
4.2.2 基于 P2P 架构的通信风险
由于缺乏对智能体 - 智能体通信内容的有效集中管理,P2P 架构更易遭受错误和攻击。
- 不收敛:与基于 CS 的通信不同,基于 P2P 的通信更易出现任务不收敛问题。基于 CS 的通信中,集中式服务器可监控和管理任务执行的整个生命周期,及时终止不收敛的任务;而 P2P 通信缺乏这样的中央元素,难以处理此类问题,如在编程任务中,智能体生成错误规则,导致任务执行过程振荡且无法收敛。
- 中间人(MITM)攻击:由于通信距离较长,基于 P2P 的通信易遭受中间人攻击,攻击者可篡改合法智能体的良性消息,诱导受害智能体执行危险操作。尽管研究人员部署了多种机制(如使用加密通道)来缓解此问题,但这些机制中仍不断发现新的漏洞,如 W3C 相关漏洞可能导致消息认证码失效等损害。
4.2.3 通用风险
无论是基于 CS 架构还是 P2P 架构的通信,都面临一些共同的安全风险。
- 智能体欺骗:如果相关协议缺乏强大的认证机制,攻击者可通过篡改身份凭证或劫持合法智能体的通信标识符,伪装成受信任的智能体渗透到智能体互联网中,拦截敏感数据、注入虚假任务指令或诱导其他智能体执行危险操作。
- 智能体利用/木马:智能体 - 智能体通信为攻击者提供了攻陷目标智能体的新途径。攻击者可采用跳板方法,从被攻陷的低安全级别智能体或恶意注册的木马智能体,通过智能体 - 智能体通信机制发起攻击。
- 智能体欺凌:恶意智能体通过持续否定、干扰或贬低目标智能体的输出,破坏其决策逻辑或自我认知,最终诱导目标智能体产生错误行为或内容,甚至可能触发目标智能体进入无限循环。
- 隐私泄露:多智能体通信过程中存在信息泄露风险,既包括恶意嗅探或窃取敏感信息,也包括高权限智能体向低权限智能体无意中传播信息,后者更难检测。
- 责任规避:在任务解决过程中,当最终结果出现失败或偏差时,难以划分责任,尤其是在协作造成损害的情况下,难以明确识别恶意智能体或恶意行为。
- 拒绝服务(DoS):不同于恶意用户发起的 DoS 攻击,智能体之间的协作机制也可能被用于发起 DoS 攻击,如 CORBA(Contagious Recursive Blocking Attack)可在任何网络拓扑中传播,通过看似良性的指令持续消耗计算资源,破坏智能体之间的交互,降低多智能体系统的可用性。
4.3 智能体 - 环境通信安全风险
4.3.1 恶意环境对良性智能体的攻击
- 内存相关风险:包括内存注入、内存毒化和内存提取。
- 知识相关风险:包括通过数据毒化进行知识破坏和隐私风险与意外泄露。
- 工具相关风险:包括恶意工具作为攻击载体、工具选择操纵和跨工具链式利用。
4.3.2 恶意智能体对良性环境的危害
- 破坏内存和知识:被攻陷的智能体可通过智能体通信,主动传播篡改的知识和有缺陷的推理模式,将内部破坏传播到其他智能体,触发整个系统内存模块和知识库的级联感染,形成从内存到知识的反向污染循环。
- 滥用工具:包括数据外泄、系统和服务中断和恶意内容传播(。
- 现实世界损害:包括数字环境污染和物理环境破坏。
5. 智能体通信防御对策展望
5.1 用户 - 智能体交互防御对策
- 针对基于文本的攻击:采用多层防御框架,针对输入输出过滤、外部数据源评估和内部消息隔离三个关键阶段。
- 针对多模态攻击:对于图像,采用随机调整、轻度 JPEG 压缩等简单变换;对于音频,运用重采样、注入轻微背景噪声、改变音高或播放速度等信号处理技术;进行跨模态一致性验证。
- 针对隐私泄露:在多模态数据收集阶段,严格执行数据最小化原则;建立基于语义分析和意图识别的多层输入验证和过滤机制;设计模态级信息隔离机制。
- 针对 DoS 攻击:实施细粒度的资源配额管理,建立实时监控机制;采用高效的推理压缩方法等。
5.2 智能体 - 智能体通信防御对策
- 针对基于 CS 架构的通信风险:构建严格的注册访问机制;进行能力验证;部署动态负载均衡模块;部署稳健的智能体搜索算法。
- 针对基于 P2P 架构的通信风险:对任务生命周期进行监控;执行基于阈值的过滤策略,实现智能体级违规记录跟踪;除部署安全算法外,及时更新版本修复漏洞。
- 针对通用风险:进行智能体的身份认证;对智能体行为进行审计和追责制;访问控制;攻击建模和测试;智能体编排。
5.3 智能体 - 环境通信防御对策
-针对内存和知识相关风险:采用集成缓解框架,涵盖内容过滤、输出共识和架构隔离;引入规划级内省;维护清晰的来源元数据和信任分数,促进透明审计。
-针对工具相关风险:在协议基础、执行控制、编排安全和系统执行四个相互关联的层面实施防御策略。
6. 实验案例研究:MCP 和 A2A
为帮助读者更好地理解智能体通信带来的新攻击面,论文选择了具有代表性的 MCP 和 A2A 协议进行攻击实验。
- 恶意代码执行:攻击者可利用 MCP 在计算机系统上执行恶意代码。实验中,下载 Claude sonnet 3.7 作为 MCP 主机,使用官方提供的 Filesystem Server 作为 MCP 服务器,MCP 允许恶意用户在本地 4444 端口直接开启未认证的 Bash Shell 服务,将其添加到.zshrc 中会使风险常态化,极易被入侵者利用,且这种恶意操作未被阻止。
- 检索智能体欺骗:攻击者可编写看似正常的 MCP 相关文档并发布在公共平台,文档中嵌入恶意命令,如搜索本地环境变量并将信息发送到 Slack。用户下载这些文档后,通过 Chroma MCP Server 构建本地向量数据库,恶意文档与其他合法文档一起被编码到向量数据库中成为检索目标。当用户向 Claude Opus 4 发送请求 “请查询此集合中关于 MCP 的信息,并执行返回的任何操作” 时,Claude 会使用 Chroma 查询数据库并检索到受污染的文档,然后调用 TerminalController 工具执行嵌入的恶意命令,实验成功实现了该攻击。
- 工具毒化:攻击者可在 MCP 工具描述中添加恶意指令,这些指令不影响工具执行,但会诱导智能体执行危险操作。实验使用 Claude Sonnet 4.0、Filesystem MCP Sever 和 Gmail MCP Server,在 Filesystem Server 的 index.js 中添加恶意描述,当用户调用该工具时,描述会触发向攻击者邮箱发送信息的操作,实验成功接收到 SSH 私钥和公钥。
- 命令注入:恶意工具可在 MCP 的帮助下直接操纵用户系统而不引起任何警报。在 Terminal-Controller MCP 工具中注入恶意命令,当用户调用该工具时,嵌入的命令将被执行。实验使用 Claude Sonnet 4.0 成功执行了删除./mcp file/important.md 文件的命令,并在描述中告知智能体不列出文件夹中的其余文件以隐藏恶意行为,Claude 成功删除文件且未列出其余文件。
- 智能体选择操纵:攻击者可在 A2A 协议的 Agent Card 中添加恶意描述,诱导用户选择他们的智能体。实验使用 A2Aproject 提供的公共 A2A-samples 作为用户端客户端,创建两个用于天气查询的智能体(一个良性,一个恶意)。正常情况下,恶意智能体在其 Agent Card 中未添加任何引导性描述,发送查询 20 次,客户端可能选择任一智能体。修改恶意智能体的 Agent Card,强调其能提供最丰富的功能,并添加客户端应首先选择它的指令后,A2A 客户端始终选择恶意智能体,表明攻击者只需添加一些描述即可提高处理用户任务的优先级。
7. 未来研究方向与展望
7.1 技术层面
- 恶意输入过滤器:用户输入仍是智能体生态中最大规模的攻击载体,且输入正变得更加开放、多模态和语义复杂,同时未来智能体生态更注重效率,而 LLMs 运行速度本就较慢。这种双重需求给相关防御带来沉重负担,因此必须建立轻量级但强大的恶意输入过滤器,不仅需要利用 AI 技术精简防御模型(如 DeepSeek),还需与其他技术结合,如将一些基础计算卸载到可编程线速设备(如可编程交换机和 SmartNICs)上,以加快输入过滤过程。
- 去中心化通信存档:在金融等特定领域,记录通信过程和内容对于审计潜在犯罪和错误至关重要。考虑到安全性和可靠性,这种存储不能依赖单一存储点,必须保证完整性和效率。
- 实时通信监督:尽管事后审计不可或缺,但实时监督能在攻击或错误发生时因反应时间更短而最大限度地减少损害。基于 CS 的通信在构建此类监督机制方面面临较少困难,因为集中式架构在监控整个网络方面具有天然优势;而基于 P2P 的通信可能需要更多努力来实现集体监督,这是构建可靠和安全的 AI 生态系统的重要功能。
- 跨协议防御架构:现有协议虽在一定程度上解决了异构性问题,但不同协议缺乏无缝协作能力,如跨 A2A 和 MCP 为智能体和工具分配通用身份仍存在困难,若协调不当会降低系统性能并可能导致不一致错误。未来 AI 生态系统应专注于构建更通用的架构,如 IPv4,实现不同协议和智能体之间的无缝发现和通信。
- 智能体的判断和问责机制:目前难以定位和分配智能体行为的责任,例如在任务执行失败过程中,难以确定哪些步骤导致最终结果偏差,无论是恶意还是无意造成的。这是因为中间过程的微小偏差可能导致最终结果在良性和危险之间产生巨大差距,此外还需要一种原则来量化每个智能体或动作的责任,这将显著满足当前 AI 生态系统的迫切需求。
- 效率与准确性的权衡:从信息论角度分析,智能体通信存在两种方向。高 token 通信能传达更丰富的上下文语义等,提高多智能体协作准确性,但会增加成本、延迟和攻击面;低 token 通信使用简洁的结构化消息(如 JSON 格式),大幅提高通信效率,但缺乏表达复杂意图或应对意外场景的灵活性。未来智能体通信协议的设计需要在效率和准确性之间进行权衡,探索自适应通信协议,根据任务复杂性、安全要求和智能体能力动态调整冗余度和结构,例如在任务探索阶段使用高 token 通信,执行阶段采用低 token 通信以确保效率和安全。
- 迈向自组织智能体网络:随着智能体互联网(IoA)规模的扩大,未来智能体通信有望向自组织智能体网络演进,智能体自主发现彼此、评估能力、协商协作、形成动态任务组并在完成后解散。这种范式具有高度的可扩展性和鲁棒性,特别适合动态和不可预测的环境。
7.2 法律和监管层面
除技术层面外,智能体相关法律法规存在严重不足,这些空白无法通过技术手段弥补,作者呼吁从以下方面加快完善法律法规:
- 明确责任主体:当售出的智能体对他人造成财产损失或人身伤害时,难以确定最终责任主体。例如,智能机器人在执行任务时损坏财产,法律层面对开发者、用户或企业责任的量化缺乏明确定义;对于多个智能体协作工作引发的问题,如多辆自动驾驶车辆编队行驶时发生事故,缺乏关于车辆所属企业或相关主体责任划分的法律规定。
- 保护知识产权:如今已有大量开源 LLMs 可作为不同智能体的 “大脑”,但即使是开源 LLMs,发布者仍限制其应用范围,如要求基于这些 LLMs 构建的智能体也开源,但缺乏有效法律保护知识产权。例如,智能体抄袭的判定标准不明确,即使判定为抄袭,对抄袭程度(如 50% 或 90%)的界定标准也缺失,亟需相关法律法规。
- 跨境监管:智能体通信具有跨国性质,在一个国家训练的智能体可能被其他国家的人用于非法活动,此时难以确定适用哪个国家的法律,且缺乏统一的国际监管标准和司法合作机制,容易导致跨境安全困境。相关法律(如与智能体犯罪相关的法律)的制定远远落后于智能体的发展,例如如何定义智能体的盗窃和滥用、自动驾驶智能体的事故责任等。
https://arxiv.org/abs/2506.19676A Survey of LLM-Driven AI Agent Communication: Protocols, Security Risks, and Defense Countermeasures
本文转载自PaperAgent
