登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断原创

AI博物院

发布于 2025-7-10 09:45

浏览

0收藏

7月8日，阿里通义实验室正式开源其最新网络智能体 WebSailor，这一突破性技术在多个高难度任务评测中刷新了开源系统的成绩记录，成为首个在BrowseComp等基准测试中逼近闭源系统能力的开源方案。

突破性性能表现：超越开源对手，直追闭源巨头

在权威评测平台BrowseComp的严格测试中，WebSailor展示了令人瞩目的能力：

在英文评测集（BrowseComp-en）中达到12.0%的准确率
在中文评测集（BrowseComp-zh）中取得30.1%的优异成绩
在GAIA信息检索子集上表现突出，准确率达55.4%

特别值得关注的是，在开源智能体领域，WebSailor实现了断层式领先，显著超越DeepSeek R1等知名开源方案，并在多个指标上逼近Grok-3、Doubao-Search等闭源方案的性能水平。

BrowseComp评测集由OpenAI发布，包含1266个极具挑战性的检索任务，要求模型在开放网页环境中展示搜索、筛选、整合和推理能力。这些任务设计复杂，线索分散在不同类型和时期的模糊信息源中，形成一张巨大的“信息迷雾网”。

登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断-AI.x社区

核心技术创新：破解高不确定性任务

WebSailor的成功源于其完整的后训练方案，该方案贯穿数据生成、冷启动调优和强化学习三大阶段：

1. SailorFog-QA：高不确定性任务生成引擎

为解决复杂推理任务数据匮乏的难题，通义团队创新性地构建了SailorFog-QA问答数据集，通过独特方法生成高不确定性任务：

随机游走建图：从维基数据等知识库中选取冷门实体作为起点，在真实网页上随机扩展，构建高度非线性、稠密连接的知识网络
信息模糊化处理：将确切年份表述为“21世纪初”，人物姓名隐去一部分，用定性描述替代精确数值，大幅提升初始不确定性
复杂子图采样：从构建的知识图中随机采样子图设计问答对，问题横跨多个领域，形成丰富多样的信息集合

这种方法生成的训练数据具有真实互联网分布特征，涵盖多样化的复杂推理模式，且规模可扩展，为模型提供了充足的“难题燃料”。

2. 推理重构：优化思维链表达

在收集开源大模型（如Qwen和DeepSeek R1）解题轨迹后，研究团队发现这些模型表现出高度固定且冗长的思维过程。WebSailor创新性地对这些轨迹进行重构：

保留正确的Action-Observation轨迹
重构Thought过程，确保每一步思考简洁且行动导向
创建干净、有效的RFT数据集，捕捉逻辑过程而非固定风格

这一重构显著提升了模型在长周期Web任务中的性能表现和可读性，避免冗长思维链占满上下文窗口的问题。

3. 层次化智能体协作框架

WebSailor采用类似阿里PC-Agent的分层决策架构，将复杂任务分解为可管理的子单元：

Manager智能体：负责复杂指令拆解与跨子任务通信
Progress智能体：跟踪和总结子任务执行进度
Decision智能体：生成操作决策
Reflection智能体：根据操作前后变化判断效果，提供反馈

这种结构有效处理了子任务间复杂的依赖关系，显著降低了单一任务的决策难度。

高效训练策略：冷启动与强化学习创新

WebSailor的训练流程采用双阶段优化策略：

RFT冷启动微调

基于Qwen-2.5（72B/32B）系列模型初始化
使用几千条高质量轨迹进行拒绝采样微调
快速建立基本工具使用和思维框架

DUPO强化学习算法

双阶段动态采样策略：前期剔除简单问题，专注高难度轨迹；训练中重复采样困难轨迹
实现2-3倍的训练速度提升
显著提高复杂Agent的样本效率

DUPO算法通过动态筛选高质量训练样本，将传统强化学习方法的效率瓶颈一举突破。

登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断-AI.x社区

参考

paper: https://arxiv.org/pdf/2507.02592
code: https://github.com/Alibaba-NLP/WebAgent
model:https://huggingface.co/Alibaba-NLP/WebDancer-32B
data: https://huggingface.co/datasets/callanwu/WebWalkerQA

本文转载自AI 博物院作者：longyunfeigu

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

Agent

阿里通义

WebSailor

已于2025-7-10 11:19:41修改

社区头条

相关推荐

阿里巴巴重磅开源EasyAnimate！基于DiT的长视频制作生态系统

angel • 5184浏览 • 0回复
拳打开源SOTA脚踢商业闭源的LI-DiT是怎样炼成的？

angel • 3567浏览 • 0回复
提升RAG系统性能10条策略建议

AIGC观察者 • 3021浏览 • 0回复
登顶新SOTA！阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro，网友：离GPT-4o只差一步

51CTO技术栈 • 3395浏览 • 0回复
Llama3.1系列模型正式开源，最大405B，闭源模型的统治时代将迎来结束？

NLP工作站 • 2683浏览 • 0回复
一篇模块化RAG之最新全面系统性综述

PaperAgent • 3895浏览 • 0回复
探索阿里通义千问 Qwen2.5：新一代开源大模型的卓越力量

穿越时空111 • 5679浏览 • 0回复
开源闭源争论不休，浅谈大模型开源和闭源

NLP工作站 • 2512浏览 • 0回复
VLM版o1超越一众开源和闭源模型！LLaVA-o1：多阶段自主推理（北大&清华&阿里等）

angel • 2954浏览 • 0回复
开源最大AI视频模型，130亿参数，性能媲美闭源，击败Runway Gen-3、Luma 1.6

51CTO技术栈 • 2895浏览 • 0回复
国产开源模型顶流「通义」，被曝应用团队已“离开”阿里云，并入阿里智能信息事业群！

51CTO技术栈 • 5282浏览 • 0回复
突破与超越：CosyVoice 2.0—阿里巴巴通义实验室的语音进阶新作

穿越时空111 • 5641浏览 • 0回复
阿里通义提出动画框架Perception-as-Control

angel • 2605浏览 • 0回复
阿里通义发布AnyStory！

angel • 2348浏览 • 0回复
阿里发布通义万相2.1 :最佳视频生成模型

Halo咯咯 • 3704浏览 • 0回复
Open Deep Search：开源推理智能体实现深度搜索，打破闭源垄断

十一月雨_55 • 2618浏览 • 0回复
阿里登顶全球榜首！中国开源生态的“杭州力量”如何改写AI规则？

算家计算 • 2100浏览 • 0回复
Crawl4AI：GitHub榜首40K星标！LLM专属极速开源爬虫神器

穿越时空111 • 2892浏览 • 0回复
刚刚，Qwen3强势登顶，成开源新王！国内首个混合推理模型，235B击败R1、o1!源神火力全开

51CTO技术栈 • 2223浏览 • 0回复

AI博物院

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断原创

突破性性能表现：超越开源对手，直追闭源巨头

核心技术创新：破解高不确定性任务

1. SailorFog-QA：高不确定性任务生成引擎

2. 推理重构：优化思维链表达

3. 层次化智能体协作框架

高效训练策略：冷启动与强化学习创新

RFT冷启动微调

DUPO强化学习算法

参考

目录

51CTO

51CTO博客

51CTO学堂

登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断 原创

突破性性能表现：超越开源对手，直追闭源巨头

核心技术创新：破解高不确定性任务

1. SailorFog-QA：高不确定性任务生成引擎

2. 推理重构：优化思维链表达

3. 层次化智能体协作框架

高效训练策略：冷启动与强化学习创新

RFT冷启动微调

DUPO强化学习算法

参考

目录

登顶开源Agent榜首！阿里通义WebSailor打破闭源系统性能垄断原创