
阿里通义重磅开源 DeepResearch:让 AI 具备 “人类级研究能力” 的技术架构全景解析 原创 精华
当 AI 从 “信息检索工具” 向 “自主研究者” 进化时,阿里通义实验室推出的 Tongyi DeepResearch(以下简称 “DeepResearch”)给出了突破性答案。作为基于 WebAgent 演进的下一代深度研究智能体,它不仅能像人类专家一样拆解复杂问题、规划研究路径,还能通过动态学习持续优化结论 —— 这背后,是一套围绕 “类人研究逻辑” 构建的全栈技术架构。
Github 地址:
https://github.com/Alibaba-NLP/DeepResearch
本文将从底层设计、核心技术、性能验证到开源生态,全面拆解 DeepResearch 如何让 AI 拥有 “深度思考” 的能力。
一、架构底层逻辑:复刻人类研究的 “双循环认知模型”
传统 AI Agent 在处理复杂研究任务时,往往陷入 “线性信息堆积” 的困境:只能机械抓取数据,却无法像人类一样 “边研究边调整方向”。DeepResearch 的核心突破,在于从根本上复刻了人类研究员的认知模式,构建了 “动态规划 - 分层合成” 双循环工作流,解决了三大核心痛点:
1. 从 “固定路径” 到 “动态探索”:让研究方向随发现进化
人类做研究时,会根据新发现不断调整大纲(比如:研究 “新能源电池” 时,发现固态电池突破后新增子主题)。DeepResearch 通过规划者 Agent(Planner) 实现这一逻辑:
- 初始阶段,Planner 基于用户问题生成 “研究大纲初稿”;
- 研究过程中,持续评估现有信息与目标的差距,通过Group Relative Policy Optimization(GRPO)强化学习算法,从历史研究轨迹中学习 “何时调整方向”,自动新增 / 删减子主题;
- 最终输出的 “活文档” 式大纲,不再是固定模板,而是随研究深入不断迭代的 “动态路线图”。
2. 从 “上下文过载” 到 “记忆 - 推理分离”:让 AI 学会 “取舍信息”
人类研究者会将 “核心证据”(比如:文献数据、实验结果)与 “临时思考”(比如:初步假设、无效尝试)分开存储,避免思维混乱。DeepResearch 借鉴这一逻辑,设计了独立的记忆层与推理层:
- 证据记忆库(Evidence Memory)仅存储经过验证的核心信息(比如:权威文献摘要、数据图表结论),由WebWeaver 子模块负责结构化管理,支持精准检索;
- 推理工作区(Reasoning Workspace)用于实时拆解问题、生成中间结论,临时思考过程用完即弃,避免占用上下文窗口;
- 这种分离机制,使 DeepResearch 能处理 “超长时研究任务”(比如:持续数周的行业报告撰写),而不会因信息冗余导致 “思维卡顿”。
3. 从 “单一文本” 到 “多模态融合”:让 AI 看懂 “图表与网页”
传统 Agent 只能处理文本信息,而人类研究需结合图表、网页布局、数据可视化等多模态内容。DeepResearch 通过 WebWatcher 子模块 实现多模态理解突破:
- 集成视觉 - 语言模型(Vision-Language Model),能解析学术论文图表、网页截图中的数据关系(比如:折线图趋势、表格对比);
- 在LiveVQA(实时视觉问答)基准测试中,Pass@1 得分达 58.7%,远超 GPT-4o 的 34.0%,意味着它能更精准地从视觉信息中提取研究证据。
二、核心技术支柱:四大创新让 AI 拥有 “研究智慧”
如果说底层逻辑是 “骨架”,那么四大核心技术模块就是 DeepResearch 的 “肌肉”,支撑起从 “信息获取” 到 “结论生成” 的全流程研究能力。
1. 迭代式深度推理(WebResearcher):破解长程任务 “认知瓶颈”
面对 “撰写行业竞争分析报告”“解析复杂科学问题” 等长程任务,传统 Agent 容易陷入“中途偏离目标”“结论碎片化” 的问题。DeepResearch 的 WebResearcher 子模块 首创 “迭代研究范式”,将研究拆分为 N 个回合,每个回合输出 “思考 - 报告 - 行动” 三元组:
- 思考(Thought)分析当前信息缺口,决定下一步行动(比如;“需补充某公司最新财报数据”);
- 报告(Report)提炼已验证的核心结论,作为 “永久记忆” 存入证据库;
- 行动(Action)调用工具(比如:搜索引擎、数据库)填补信息缺口;
- 关键创新:仅保留 “报告” 作为核心记忆,“思考” 过程实时丢弃,避免 “认知污染”(即无效思考干扰后续判断)。
- 效果验证:在HLE(复杂逻辑推理基准)中,30B 参数的 DeepResearch 模型得分达 32.0%,超越 72B 参数的传统 Agent,证明 “迭代推理” 比 “规模堆砌” 更高效。
2. 动态数据合成引擎:解决 “研究型 AI 缺练手材料” 难题
高质量研究数据稀缺是行业痛点(人类专家的研究过程难以完整记录)。DeepResearch 构建了 自动化数据生成流水线,可批量产出 “带详细推理轨迹” 的训练数据:
- 三阶段生成流程
a.ItemWriter:生成初始研究问题(比如:“分析 AI 大模型能耗优化技术”);
b.工具增强 Agent:为问题添加复杂度(比如:“需对比 10 种技术方案,含量化数据”);
c.Judge Agent:验证数据质量(比如:“推理步骤是否符合人类研究逻辑”);
- 基于该引擎的WebShaper 子模块,已生成 WebWeaver-3k 等 SFT(有监督微调)数据集,让小模型也能习得 “专家级研究技巧”。
3. 多模态工具链:打通 “看、搜、算” 全流程研究能力
人类研究者会灵活使用文献管理软件、数据可视化工具、计算器等,DeepResearch 则通过 统一工具调度层 整合多元能力,覆盖研究全场景:
- 视觉理解工具解析学术图表、网页截图,在MMSearch(多模态搜索基准)中 Pass@1 达 55.3%;
- 智能搜索工具基于 ReSum 算法的摘要工具,能压缩长对话并保留关键线索,支持 “无限长研究过程”;
- 逻辑计算工具集成 Python 执行环境,解决量化分析问题(如 “计算某技术的成本收益比”);
- 文献解析工具自动提取 PDF 论文的摘要、图表、参考文献,生成结构化证据卡片。
4. 轻量化高效推理:让 “深度研究能力” 普惠化
大模型的高算力需求限制了研究型 AI 的落地。DeepResearch 通过模型压缩与推理优化,在保证性能的同时降低部署门槛:
- 专项工具模型推出 ReSumTool-30B 摘要工具,性能接近 235B 大模型,但推理速度提升 3 倍,部署成本降低 70%;
- 混合精度推理采用 FP16+INT8 混合精度,在 GPU 显存占用减少 40% 的情况下,保持推理准确率仅下降 1.2%;
- 增量更新机制针对研究任务的 “增量式证据补充” 特点,优化模型输入策略,避免每次新增信息都重新处理全量数据。
三、性能验证:三大权威基准刷新 “研究型 AI” 天花板
DeepResearch 的架构优势,已在三大权威基准测试中得到验证,全面超越现有研究型 Agent:
测试基准 | 核心任务 | DeepResearch 表现 | 行业对比(GPT-4o) |
DeepResearch Bench | 综合性研究能力(5 项指标) | 平均得分 82.3,有效引用率超 27% | 平均得分 65.1,有效引用率较低 |
BrowseComp-VL | 多模态研究任务 | 平均得分 27.0%(2 倍于竞品) | 平均得分 13.5% |
HLE | 复杂逻辑推理 | 30B 模型得分 32.0% | 72B 模型得分 28.5% |
其中,DeepResearch Bench 是阿里通义团队构建的首个 “类人研究能力评估基准”,涵盖 “问题拆解完整性”“证据可靠性”“结论洞察力” 等 5 项核心指标,更贴近真实研究场景。测试结果显示,DeepResearch 生成的报告不仅 “信息全面”,还能提出 “预见性观点”(比如:基于技术趋势预测某领域 3 年后的发展方向),这是传统 Agent 难以实现的。
四、开源与生态:让 “AI 研究员” 能力触手可及
为推动研究型 AI 的普惠化,DeepResearch 已全面开源核心模型、工具与数据集,开发者可通过以下渠道快速接入:
1. 开源模型(Github/HuggingFace/ModelScope)
- 基础模型Tongyi-DeepResearch-30B-A3B,支持 ReAct(反应式推理)与 IterResearch(迭代式推理)两种模式;
- 专项工具模型ReSumTool-30B(摘要工具)、WebWatcher-13B(多模态理解);
- 部署支持提供 Docker 镜像、K8s 部署配置,支持单机 GPU(A100 40G)即可启动完整研究能力。
2. 核心数据集
- WebWeaver-3k含 3000 个研究任务的完整推理轨迹,标注 “问题 - 大纲 - 证据 - 结论” 全链路;
- BrowseComp-VL-10k10000 个多模态研究样本(含文本 + 图表 + 网页截图);
- HLE-Extended扩展版复杂推理数据集,新增 “行业分析”“科学研究” 等真实场景任务。
3. 应用场景与案例
目前,DeepResearch 已在多个领域落地实践:
- 学术研究辅助科研人员撰写文献综述,自动整合 50 + 篇论文核心观点,生成结构化综述框架;
- 行业分析为企业生成 “AI 大模型产业竞争报告”,自动抓取 10 + 家厂商动态、30 + 项技术参数,输出对比分析;
- 政策研究解析地方产业政策,自动提取 “扶持方向”“补贴标准”,生成落地可行性分析。
五、结语:研究型 AI 的下一站 ——“认知智能” 的突破
DeepResearch 的技术架构,本质上是对 “AI 如何模拟人类认知” 的一次深度探索。它没有停留在 “工具调用” 的表层,而是深入到 “研究逻辑” 的核心:通过双循环工作流复刻人类的 “探索 - 合成” 思维,用记忆 - 推理分离解决 “认知过载”,靠迭代推理实现 “长程思考”。
未来,随着多模态理解能力的深化(比如:解析实验视频、模拟科学实验)、跨领域知识融合(比如:结合医学与 AI 的交叉研究),研究型 AI 或将从 “辅助工具” 进化为 “协作伙伴”,与人类专家共同突破知识边界。而 DeepResearch 的开源生态,也为开发者提供了通往这一未来的 “技术脚手架”—— 毕竟,让 AI 拥有 “研究智慧”,最终是为了让人类更专注于 “创造性思考”。
好了,这就是我今天想分享的内容。
本文转载自玄姐聊AGI 作者:玄姐
