
AI 智能体应用架构设计全流程剖析:一次请求到底经过了哪些关键步骤? 原创
AI 智能体已经在企业的众多场景中落地,比如:对话与问答、报告生成、内容审核、流程自动化、可视化数据分析、AI 编程等。
当你向智能客服提问时,在你点击发送按钮之后,AI 智能体应用架构是如何生成并回复你的问题的?这篇文章将通过一张核心架构设计全流程图,带你深入了解 AI 智能体应用架构设计在接收到用户请求后是如何一步步处理的。这不仅是对 AI 智能体技术的揭秘,也是对 AI 智能体应用架构设计落地的深入探讨。
下文我们详细剖析之。
一、AI 智能体应用架构请求全流程设计
AI 智能体应用架构接收到用户的请求(Prompt),到回复用户结果(Response),会经历7个关键模块:API 网关层、AI 智能体业务逻辑层、AI 网关层、MCP 网关层、模型层、向量知识库层、MCP Server 工具层,如下图所示(值得好好看和收藏⬇):
下面我们对 AI 智能体应用架构设计的请求全流程进行详细解读。
二、AI 智能体架构请求全流程解读
1、用户端:用户请求的入口
在用户界面上,用户输入一句话(Prompt):比如:“这个订单可以退款吗?”,这个请求会发送给 AI 智能体架构进行处理,并且这个请求带了如下4个关键参数:
- Prompt:用户请求内容;
- UID:用户唯一 ID;
- SessionID:用户会话 ID;
- TranceID:用户一次请求跟踪 ID。
2、API 网关层:管理 API 请求的中心枢纽
API 网关层像 AI 智能体系统的门卫,不仅接收请求,还检查参数完整性和权限,然后把请求路由转发给 AI 智能体业务逻辑层,并记录日志。
3、AI 智能体业务逻辑层:业务逻辑的编排引擎
AI 智能体业务逻辑层负责处理和协调具体业务需求并与下游多个模块进行交互。
第一步,需要理解用户在说什么,于是我们把 Prompt 向量化请求交给 AI 网关层。
4、AI 网关层:模型的统一代理入口
在企业落地 AI 智能体应用的过程中,会使用到很多模型:大模型、小模型,这么多模型异构性、模型上下线、高可用、Failover、动态切换等操作需要对 AI 智能体业务逻辑层透明,因此就需要 AI 网关层统一的代理。
AI 网关层接收到用户的 Prompt 向量化请求后,自动选择合适的 Embedding 模型,并把请求提交给模型层。
5、模型层:多个模型聚合层
模型层主要有三类模型:大语言模型、Embedding 模型、Reranker 模型。大语言模型负责推理,Embedding 模型负责向量化,Reranker 模型负责对一阶段检索的 TopK Chunks 进行重排。
AI 智能体理解你的话,首先要把你的话转成机器能懂的语义向量。
这一步通过 Embedding 嵌入模型实现,它把你的输入转换成一个高维向量,比如:1536维或768的数组。
这个向量是整个流程的关键,后续的知识检索依赖它。
向量结果返回给 AI 网关层,AI 网关层继续返回给 AI 智能体业务逻辑层。AI 智能体业务逻辑层继续进行相似度检索。
6、MCP 网关层:数据和工具的代理层
MCP 协议虽然标准了 AI 智能体和工具的通信,但是依然有很多增量的 MCP Server 以及大量存量的企业级业务 API,还有海量的数据库,这么多数据工具需要有一个统一管理的服务,用于高可用、统一路由、协议转换、访问鉴权等工作,那么这就是 MCP 网关层存在的原因。
AI 智能体业务逻辑层请求 MCP 网关层继续向量相似度检索,MCP 网关层适配后自动请求下游的向量知识库层。
7、向量知识库层:知识统一存储
从 MCP 网关层得到语义向量后,下一步是进入向量知识库库进行相似度搜索。
这就像给你一本书的气味,然后向量知识库帮你找出最相似的书。
结果是找出最相关的几个知识片段(Chunk),可能来自知识库、旧文档、API说明或操作手册。
但只有“相似”还不够,我们还需要更精确的排序,这就是下一步要做的 Reranker 重排。
在 Reranker 重排之前,向量知识库把 TopK Chunks 返回给 MCP 网关层,MCP 网关层把 TopK Chunks 继续返回给 AI 智能体业务逻辑层。
8、模型层:Reranker 重排
AI 智能体业务逻辑层把 TopK Chunks 请求 AI 网关层,AI 网关层适配后自动请求模型层的 Reranker 模型进行二次的排序。
在挑选出的最相关的 TopK Chunk 中,可能还是会有一些看起来相关但实际上没什么用的信息。为了解决这个问题,AI 智能体会用一个重排模型来重新评估这些搜索结果。
这个过程就像是编辑在筛选一堆材料,找出哪些能更准确地回答用户的问题。
经过重排,通常会选出3到5条最相关的 Chunks,这些知识片段将被整合进最终的提示词中,和用户的输入一起作为大语言模型(LLM)的输入。
重排后的 TopK Chunks 再次返回给 AI 网关层和 AI 智能体业务逻辑层。
9、第一次调用 LLM:你需要我回答还是去执行?
AI 智能体业务逻辑层现在掌握了:
- 用户的问题;
- 相关的知识;
- 可用工具的信息;
这三样东西被组合成一个完整的提示词(Prompt),然后输入到大语言模型中,比如:DeepSeek R1 或 Qwen 3等,进行初次处理。
大模型会根据上下文来决定:是直接回答问题,还是需要调用某个工具?
如果问题很简单(比如:“AI 大模型是什么?”),大模型会直接生成答案;
如果问题需要查询最新信息或执行某些操作(比如:“帮我看看客户的合同状态。”),大模型会生成一个工具调用指令,指导 AI 智能体业务逻辑层调用正确的工具并输入必要的参数。
在这个阶段,AI 智能体就像是个决策者,决定是自己直接回答还是需要采取行动。
10、MCP Server 工具层:调用工具动手干活
一旦大模型选择调用工具,AI 智能体业务逻辑层调用 MCP 网关层来激活已注册的 MCP Server 工具集去执行任务:
- 查询系统(订单接口、商品接口);
- 启动工作流程;
- 运行计算;
- 获取外部 API 信息。
每次工具调用都是一个“可追踪的操作”,它们的调用参数和返回结果都会被记录下来,保证整个过程可以监控和回查。
11、第二次 LLM 调用:结合工具执行结果,给出最终答复
工具调用完成后,AI 智能体业务逻辑层要把工具返回的结果、原始输入和上下文信息再次通过 AI 网关层发送给 LLM。
这样,LLM 就能综合这些信息,生成一段完整、清晰、易于理解的自然语言回答。
这就是你作为用户看到的那段“智能、逻辑性强、理解上下文”的回复:其实它背后经历了两轮推理、一次工具调用和多层信息整合。
12、返回与响应:答案落地,体验闭环
生成的答案首先送回 AI 智能体业务逻辑层,然后由 API 网关层服务传递给用户。与此同时,AI 智能体应用架构会将整个请求过程的日志:包括从接收、业务处理、AI 网关、MCP 网关、向量化处理、检索、重排、工具调用到 LLM 生成答案的所有步骤都记录下来,并存储到日志平台中,不仅帮助开发者进行调试和问题定位,也为产品的分析和质量改进提供了数据支持。
总之,AI 智能体应用架构中的请求全流程设计至关重要,每个 AI 大模型应用新架构师都需要掌握,AI 智能体处理请求的全过程总结如下:
- 用户通过界面发送请求,附带关键参数。
- API 网关层接收并验证请求,然后转发至 AI 智能体业务逻辑层。
- AI 智能体业务逻辑层处理请求,并将其向量化。
- AI 网关层选择合适的模型进行向量化处理。
- 模型层 负责向量化、推理和重排。
- MCP 网关层管理数据和工具代理,进行相似度检索。
- 向量知识库层统一存储知识,进行相似度搜索。
- 模型层的重排模型对检索结果进行精确排序。
- AI 智能体业务逻辑层将排序后的信息和用户输入一起提交给 LLM 进行初次处理。
- 根据 LLM 的判断,可能直接回答或调用 MCP Server 工具层。
- 工具层执行任务后,将结果返回给 AI 智能体业务逻辑层。
- AI 智能体业务逻辑层将工具结果和上下文再次提交给 LLM 生成最终回答。
- API 网关将最终答案返回给用户,并将全过程日志记录到日志平台。
本文转载自玄姐聊AGI 作者:玄姐
