
多 AI 智能体技术架构设计演进剖析 原创
本文将深度探讨 AI 智能体技术架构演进和多 AI 智能体当前的架构设计能力,给大家提供一个全面且深入的视角来理解多 AI 智能体的协作架构。
下文我们详细剖析之。
一、AI 智能体技术架构演进
AI 智能体技术架构至今已经演进了5个阶段,下文详细剖析之:
第一阶段:手艺人
手艺人象征着人类脑力的初步应用,这一阶段的入门门槛较低,几乎每个人都能参与其中。然而,能够达到顶尖水平的手艺人却寥寥无几。AI 智能体技术在这一阶段主要体现为算法、算力和模态理解。当前的大模型技术正是处于这一阶段,当算法突破瓶颈后,其稀缺性将逐渐显现,从而超越其他模型。AI 智能体技术在这一阶段通常用于聊天、总结和翻译等场景,能够直接输出知识。
第二阶段:工作室
工作室的核心特点是拥有一个灵魂人物(例如:小老板),负责产品的立项和设计决策,并将具体任务分配给关键的手艺人。工作室的产品通常是定制化的,会结合用户的特定内容进行定制。关键技术包括意图模型和工具使用。在业界,例如:豆包、元宝、频道问问等 AI 智能体产品,都在进行特定内容的上下文处理,实现总结、问答和聊天等娱乐化功能。
第三阶段:流水线
流水线阶段的特点是批量化执行和拉线管理。在工厂中,每个流水线都有专门的管理人员监督工作进度,确保生产环节顺利进行。对应的 AI 智能体技术包括任务编排、管理和 AI-Devops。例如,任务分发后可以通过多种方式执行并回收结果。产品示例包括豆包的 Coze 平台和 Dify 平台。
第四阶段:小型组织
小型组织类似于现代工厂的制造部门,关键技术是规划决策算法和自动化技术。在这个阶段,任务可能是模糊的,需要规划和决策算法来优化产品。自动化技术结合 MCP(可能指某种管理控制平台)可以提高效率。例如,规划决策算法用于分析问题、数据和工具选择,而自动化技术则使任务执行得更快。
第五阶段:现代企业组织
现代企业组织由多个部门协作,关键在于持续稳定的角色驱动。当前,所有上下文都是基于用户输入启动的,但组织需要持续运转,并实时调整数据输入和反馈。关键技术包括数据共享和自我决策驱动,通过接入更多数据实现自我迭代。目前,环境感知在 AI 智能体上的应用还比较少,但未来 AI 智能体协作的形态应该是持续运营状态,基于持续的数据输入对自身进行迭代。
例如,PM(产品经理)和 DS(数据科学家)作为两个 AI 智能体每天交流信息,他们可能共同开了一个会议,目标更新了。当这个目标需要两个角色共同完成时,AI 智能体集群可以自我编排,将两个 AI 智能体整合成一个新的高维 AI 智能体来实现目标(类似于项目组织的概念)。
企业组织通过 OKR(目标与关键结果)驱动目标划分,依据部门定位编排目标。当外部的产品或技术发生变化时,企业会自行更新组织来适应。对于 AI 智能体协作来说,达到企业级别的 AI 智能体会自行通过决策,在已有基础上创建新的 AI 智能体来适应变化,并在持续的外部数据输入后进行更新迭代和编排。
总之,各阶段的 AI 智能体技术架构演进展示了从手艺人到现代企业组织的逐步发展,每个阶段都有相应的技术和应用场景。应用的选择应根据使用场景和用户规模来判断,不一定每个应用都要走到最后阶段。
二、AI 智能体能力架构剖析
1、AI 智能体能力核心模块
AI 智能体的能力主要可以分为以下四个核心部分:
- 知识记忆
- 预测功能
- 动作执行
- 工具能力
第一、知识记忆 (Memory and Knowledge)
AI 智能体的大脑负责记忆和知识的获取。知识记忆通常通过微调训练或者特定方案(例如 RAG 的方案)来实现。这些方法使 AI 智能体能够在不同情况下调用相关知识,从而更好地应对各种任务。
第二、预测功能 (Prediction)
对于预测任务,AI 智能体可以将图像、多模态数据等转换成文本形式,然后进行预测。这种转换使得 AI 智能体在处理不同类型的数据时更加灵活和高效,能够快速适应多样化的输入。
第三、动作执行 (Action)
动作执行是通过工具能力来实现的,例如:
- API 调用
- SQL 调用
- 机械手操作
- 其他工具调用
这些调用都属于 AI 智能体的动作执行部分,帮助 AI 智能体完成具体的任务操作。
第四、工具能力 (Tool Capability)
在工具能力方面,以 ReAct 架构模式的方案为例,AI 智能体可以实现 API 调用和搜索等功能。这些能力使得 AI 智能体能够高效地与外部系统交互,获取所需信息并执行任务。
MCP (万能插口)
MCP 的概念可以理解为一个万能的插口。目前,所有工具调用可能各自有独立的沙箱板,而 MCP 作为一个通用接口,使得所有工具都能接入,从而提高了兼容性和灵活性,MCP 需要建立在 Function Calling 的基础之上。
RAG (知识补充)
RAG 是一个知识补充机制,用于增强 AI 智能体的知识库。通过 RAG,AI 智能体可以动态地获取和更新知识,从而更好地应对复杂多变的任务需求。
总之,当前的 AI 智能体通过整合计算能力、知识记忆、预测功能和动作执行等多个方面,能够高效地与外部用户进行交互,并完成复杂的任务。这些能力的实现依赖于各种工具和接口的使用,例如 API 调用、SQL 调用和机械手操作等。通过 MCP 和 RAG 等机制,AI 智能体能够更加灵活地调用和补充知识,从而提升整体性能。
本文转载自玄姐聊AGI 作者:玄姐
