
性能比肩Claude4! 阿里开源4800亿参数编程大模型Qwen3-Coder 原创
2025年7月23日,阿里巴巴Qwen团队正式开源了其最新一代旗舰编程模型Qwen3-Coder系列,在编程和智能体任务上展现出惊人的能力,直接对标业界标杆Claude Sonnet 4,甚至在某些场景下实现超越。
与此同时,阿里还推出并开源了一款用于代理式编程的命令行工具:Qwen Code。Qwen Code 基于 Gemini Code 进行二次开发,可以和社区优秀的编程工具结合,如 Claude Code、Cline 等。
技术特征
MoE 创新
Qwen3-Coder采用了先进的混合专家模型架构,总参数高达4800亿,但运行时仅激活35亿参数,实现了"大容量、高效率"的完美平衡。与传统的稠密模型不同,MoE架构通过动态路由机制,每个token仅由少数专家处理,大幅提升了计算效率。
技术亮点包括:
- 128个专家网络,每个token激活8个专家,实现细粒度计算
- 移除共享专家设计,增强专家专业化程度
- 全局批次负载均衡损失,优化专家资源分配
超长上下文支持
Qwen3-Coder原生支持256K token的上下文窗口(约50万字符),通过YaRN技术更可扩展至1M token——相当于整本《战争与和平》的长度 。这一突破性能力使其能够处理完整的代码库、大型PR请求等复杂场景,为"仓库级编程"提供了可能 。
多语言全面覆盖
模型精准支持358种编程语言,从主流的Python、Java到小众的ABAP、Zig等,几乎覆盖了所有开发场景需求。
训练方法
预训练阶段
Qwen3-Coder在7.5万亿token的数据上进行预训练,其中代码数据占比高达70%。训练分为三个阶段:
- 通用阶段:建立广泛的语言知识和世界知识
- 推理阶段:强化STEM和编码能力
- 长上下文阶段:扩展模型处理长序列的能力
特别值得注意的是,团队利用Qwen2.5-Coder对低质量数据进行了清洗与重写,使噪声数据减少40%,显著提升了数据质量。
后训练阶段
Qwen团队认为,所有代码任务都天然适合执行驱动的大规模强化学习。在后训练阶段,他们实现了两项关键创新:
代码强化学习(Code RL):
- 自动生成多样化测试用例
- 扩展真实场景覆盖,突破竞赛级代码局限
- 使代码执行成功率提升35%
长视距强化学习(Agent RL):
- 依托阿里云基础设施构建20,000个并行独立环境
- 支持多轮交互训练(规划→工具调用→环境反馈→决策优化)
- 在SWE-Bench上实现开源模型最佳表现
性能表现
Qwen3-Coder在三类核心任务上刷新了开源模型的纪录:
- Agentic Coding:智能体编程任务
- Agentic Browser-Use:浏览器操作自动化
- Agentic Tool-Use:开发工具链集成
在SWE-Bench(评估模型解决真实世界软件工程问题能力的基准)上,Qwen3-Coder的表现不仅超过了DeepSeek V3和Kimi K2等开源模型,甚至可与商业闭源的Claude Sonnet 4媲美。
获取与部署指南
模型获取渠道
- Hugging Face:https://huggingface.co/Qwen
- 魔搭社区:https://modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct
- Qwen Code GitHub:https://github.com/QwenLM/qwen-code
API服务
Qwen3-Coder API已在阿里云百炼平台上线,采用阶梯计费:
- 256K~1M上下文:输入6美元/百万token,输出60美元/百万token
- 128k~256k:价格与Claude Sonnet 4持平
开发者工具生态
Qwen Code命令行工具
阿里同步开源了基于Gemini Code二次开发的Qwen Code命令行工具,特点包括:
- 支持OpenAI SDK调用
- 优化了prompt和工具调用协议
- 最大化激发Qwen3-Coder的Agentic Coding能力
npm install -g @qwen-code/qwen-code
export OPENAI_API_KEY="your_api_key"
export OPENAI_BASE_URL="https://dashscope-intl.aliyuncs.com/compatible-mode/v1"
export OPENAI_MODEL="qwen3-coder-plus"
通过简单地输入 qwen
就可以使用 Qwen-Code
兼容Claude Code
开发者只需简单配置,就可在Claude Code工具中使用Qwen3-Coder模型
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/api/v2/apps/claude-code-proxy
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey
总结
Kimi K2 刚登顶开源模型 SOTA 榜单不到两周,就被 Qwen 反超了。当前大模型领域竞争还真是激烈,等一波实测数据验证其性能。若 Qwen 真能达到 Sonnet4 的水平,等后续集成到通义灵码平台后(毕竟使用API感觉还是不够划算),就可以考虑全面迁移了。
本文转载自AI 博物院 作者:longyunfeigu
