
腾讯元宝 AI 大模型新搜索案例架构设计与落地实践 原创 精华
诞生三十余年的“老”搜索,在 AI 时代仍是必争高地,根源在于它与大语言模型(LLM)形成了“彼此成就”的闭环。
对大模型而言,搜索像实时外挂的知识库--补时效、补长尾、拉通垂直领域,显著削弱幻觉;多轮调用后,它已成为大模型落地的标准“氧气”。反过来,大模型把搜索从“给链接、人筛选”的旧范式,推进到“直接生成答案”的新纪元,整条技术栈--理解、召回、排序、呈现--都被重新写了一遍,搜索由此迈入生成式进化快车道。
比如:面对高考志愿填报这类“千人千面”的复杂任务,传统搜索只能丢出一堆链接,让人越看越乱。基于 DeepSearch 做成“AI 高考通”——一个专啃硬骨头的 AI 智能体:
它先用 Agentic RAG 把志愿这件事拆成若干子任务,再循环执行“规划-搜索-阅读-反思”,一口气调度几十个报考工具;最后为每位考生自动生成可落地的志愿表,并给出决策理由。这样,碎片化的分数线、招生计划与个人偏好被整合成一张清晰的“作战图”,彻底告别“搜得到却用不上”的尴尬。
下文我们详细剖析下。
一、AI 大模型搜索技术架构设计演进
1、搜索技术架构设计三次跃迁
搜索技术,正经历一场由“检索”到“思考”的范式革命。这条演进曲线并非线性升级,而是三次结构性的跃迁:
图片
第一次跃迁,我们称之为“古典检索时代”,关键词触发、倒排召回、多路粗排,一切围绕“把最相关的网页挑出来”。
第二次跃迁,RAG 让大模型第一次介入流程,Function Calling 把实时 API 当作“外挂记忆”,LLM 的总结能力把“链接列表”压缩成“答案段落”。然而,当用户开始提出跨域、多步、需要权衡取舍的复杂问题时,RAG 的单轮式“问-搜-答”显得捉襟见肘。
于是迎来第三次跃迁--Agentic RAG:多 AI 智能体协同,Planning 负责把宏大需求拆成可执行的子任务,Reflection 在每一轮交付后复盘并动态调整策略,强化学习为整个链路注入持续进化的动力。搜索自此不再是“匹配”,而是“解题”。
2、技术挑战和解决方案
为了支撑这一 AI 大模型搜索架构设计的跃迁,搜索全链路的每一环都被重新雕刻,主要技术挑战和解决方案如下:
第一、需求理解:从“分词-纠错-意图分类”到“对话式解析”
技术方案:两阶段 LLM 改写机制。第一阶段用 SFT 在人工标注数据上学习如何把口语化 Prompt 拆成独立、可检索的子问题;第二阶段引入真实检索效果作为奖励信号,通过强化学习让拆解粒度与用户满意度对齐。
场景示例:用户问“烟台大黑山岛有什么特色、周围经济酒店、需要几天玩”,系统实时拆成三条独立 Query,并自动补全省略的地理与时间约束。
第二、索引召回:从“文档”到“知识片段”
粒度下沉:将整篇网页切分为语义完整的 Chunk,构建 Chunk-Level 向量索引;同时保留原文档级索引,形成“双粒度”召回层。
语义增强:引入领域知识精调后的 Embedding,结合 Cross-Encoder 做二次校准,确保高知识密度片段优先曝光。
幻觉抑制:同一事实的多源片段并行召回,交由 LLM 做一致性校验,显著降低空口断言。
第三、生成式精排:从“多模型分目标”到“单模型端到端”
模型底座:13B → 30B → 70B 的生成式 Teacher 在搜索日志、问答对、权威文档上进行持续预训练,获得领域先验。
监督范式:采用 GenFR(Generative Fine-grained Ranking)框架,让模型一次性输出“相关性-权威性-时效性-需求满足度”四维打分,并通过 sentence-level loss 与人工标注对齐。
推理落地:70B Teacher 蒸馏至 0.5B Student,结合 INT8 量化与投机解码,在不牺牲效果的前提下,P99 延迟从 1.2 s 降至 220 ms。
第四、Agentic RAG 的“认知闭环”实现
RL-Based Planner:拆解后的子问题检索完成度、用户点击/停留/满意度,被实时回传为奖励,Policy Network 据此微调下一步拆解策略。
RL-Based Retriever:生成答案后,由 LLM 自检“引用准确率、事实一致性、用户满意度”三重指标,计算 Reward 并回灌到 Embedding 与 Rank 模型,实现“检索-总结-反思”的循环训练。
多智能体协同:Planning Agent、Retrieval Agent、Reflection Agent 通过消息总线共享状态,任务卡片在 Agent 间流转,支持毫秒级抢占与回退,确保复杂任务的容错与收敛。
第五、Function Calling 插件系统--从“静态数据”到“动态工具网络”
插件召排:对数千个 API 做向量化描述,用户 Query 改写后先以向量召回 Top-k 插件,再经轻量级 Rank 模型压缩至 Top-n,确保 token budget 内 100% 召回。
槽位抽取:结合外部知识(节假日、汇率、限行规则)作为先验,Function Calling 模型在 Prompt 中显式注入,降低槽位幻觉。
样本自动构建:给定少量种子 Prompt 与槽位,系统通过双向泛化(prompt→slot、slot→prompt)生成 20× 训练样本,经人工质检后回流模型,两周内即可上线新插件。
第六、面向未来的加速方向
因果推理增强:在排序阶段引入因果图约束,过滤伪相关特征,提升事实准确率。
分布式强化学习:采用异步 Advantage Actor-Critic,训练吞吐提升 3×,单卡即可承载 70B 模型的策略更新。
量子化检索实验:基于 ANN 的 4-bit 量化索引,理论检索延迟 < 50 μs,为高并发实时场景预留性能余量。
搜索的终点不再是“给出十条蓝色链接”,而是成为一个可拆解、可反思、可进化的“问题解决型 AI 智能体”。
总之,2025 年,大模型与实时搜索正式拧成「双螺旋」:大模型需要最新知识,搜索需要模型理解力。智能问答|自动驾驶|在线教育|协同办公|金融科技等 AI 场景都可以使用 AI 大模型新搜索,帮助企业把搜索成本转成增长杠杆。
从通用大模型到车载 AI 智能体,再到电商导购机器人,「AI 大模型新联网搜索」正在成为 AI 时代的默认数据底盘。
好了,这就是我今天想分享的内容。
本文转载自玄姐聊AGI 作者:玄姐
