
登顶开源Agent榜首!阿里通义WebSailor打破闭源系统性能垄断 原创
7月8日,阿里通义实验室正式开源其最新网络智能体 WebSailor,这一突破性技术在多个高难度任务评测中刷新了开源系统的成绩记录,成为首个在BrowseComp等基准测试中逼近闭源系统能力的开源方案。
突破性性能表现:超越开源对手,直追闭源巨头
在权威评测平台BrowseComp的严格测试中,WebSailor展示了令人瞩目的能力:
- 在英文评测集(BrowseComp-en)中达到12.0%的准确率
- 在中文评测集(BrowseComp-zh)中取得30.1%的优异成绩
- 在GAIA信息检索子集上表现突出,准确率达55.4%
特别值得关注的是,在开源智能体领域,WebSailor实现了断层式领先,显著超越DeepSeek R1等知名开源方案,并在多个指标上逼近Grok-3、Doubao-Search等闭源方案的性能水平。
BrowseComp评测集由OpenAI发布,包含1266个极具挑战性的检索任务,要求模型在开放网页环境中展示搜索、筛选、整合和推理能力。这些任务设计复杂,线索分散在不同类型和时期的模糊信息源中,形成一张巨大的“信息迷雾网”。
核心技术创新:破解高不确定性任务
WebSailor的成功源于其完整的后训练方案,该方案贯穿数据生成、冷启动调优和强化学习三大阶段:
1. SailorFog-QA:高不确定性任务生成引擎
为解决复杂推理任务数据匮乏的难题,通义团队创新性地构建了SailorFog-QA问答数据集,通过独特方法生成高不确定性任务:
- 随机游走建图:从维基数据等知识库中选取冷门实体作为起点,在真实网页上随机扩展,构建高度非线性、稠密连接的知识网络
- 信息模糊化处理:将确切年份表述为“21世纪初”,人物姓名隐去一部分,用定性描述替代精确数值,大幅提升初始不确定性
- 复杂子图采样:从构建的知识图中随机采样子图设计问答对,问题横跨多个领域,形成丰富多样的信息集合
这种方法生成的训练数据具有真实互联网分布特征,涵盖多样化的复杂推理模式,且规模可扩展,为模型提供了充足的“难题燃料”。
2. 推理重构:优化思维链表达
在收集开源大模型(如Qwen和DeepSeek R1)解题轨迹后,研究团队发现这些模型表现出高度固定且冗长的思维过程。WebSailor创新性地对这些轨迹进行重构:
- 保留正确的Action-Observation轨迹
- 重构Thought过程,确保每一步思考简洁且行动导向
- 创建干净、有效的RFT数据集,捕捉逻辑过程而非固定风格
这一重构显著提升了模型在长周期Web任务中的性能表现和可读性,避免冗长思维链占满上下文窗口的问题。
3. 层次化智能体协作框架
WebSailor采用类似阿里PC-Agent的分层决策架构,将复杂任务分解为可管理的子单元:
- Manager智能体:负责复杂指令拆解与跨子任务通信
- Progress智能体:跟踪和总结子任务执行进度
- Decision智能体:生成操作决策
- Reflection智能体:根据操作前后变化判断效果,提供反馈
这种结构有效处理了子任务间复杂的依赖关系,显著降低了单一任务的决策难度。
高效训练策略:冷启动与强化学习创新
WebSailor的训练流程采用双阶段优化策略:
RFT冷启动微调
- 基于Qwen-2.5(72B/32B)系列模型初始化
- 使用几千条高质量轨迹进行拒绝采样微调
- 快速建立基本工具使用和思维框架
DUPO强化学习算法
- 双阶段动态采样策略:前期剔除简单问题,专注高难度轨迹;训练中重复采样困难轨迹
- 实现2-3倍的训练速度提升
- 显著提高复杂Agent的样本效率
DUPO算法通过动态筛选高质量训练样本,将传统强化学习方法的效率瓶颈一举突破。
参考
- paper: https://arxiv.org/pdf/2507.02592
- code: https://github.com/Alibaba-NLP/WebAgent
- model:https://huggingface.co/Alibaba-NLP/WebDancer-32B
- data: https://huggingface.co/datasets/callanwu/WebWalkerQA
本文转载自AI 博物院 作者:longyunfeigu
