
国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳! 原创
编辑|云昭
出品 | 51CTO技术栈(微信号:blog51cto)
Claude Code 终于有了免费平替了。
几个小时前,阿里 Qwen 团队发布了其自研最强代码模型 —— Qwen3-Coder,不过,各位不要被“代码模型”迷惑了。(昨天开源的Qwen3-235B-A22B-Instruct-2507 只能说是开胃菜了~)
挺让人惊讶的,这一次发布的模型,重点竟然不再是编程,而是 Agentic 能力。
在官宣中,重点突出了三项最强:Agentic 编程、Agentic 浏览器使用、Agentic 工具调用。
图片
先“省流”地说下官方宣布的成绩,尔后我们开始实测。
据官方放出的博客介绍,Qwen3-Coder 的首发版本是 Qwen3-Coder-480B-A35B-Instruct,4800 亿参数的庞大体量,支持百万级上下文。
能力全面对标 Claude Sonnet 4,特别是在多个开源智能体任务中拿下 SOTA,所以说它是目前国产最强 Agent 编程模型,也是最强开源 Agent 编程模型,都是没毛病的。
先说 highlight
这次发布,小编认为主要有两点。
首先,新开源的 Qwen3-Coder 可以说已经智能体任务的三大关键场景上达成了新高度。这三项任务均在开源榜单中登顶,堪比甚至部分超过了 Claude Sonnet 4。
图片
在 Agentic Coding 这块,值得注意的是,在目前最接近真实世界软件工程场景的 Agentic Coding 测试集之一的 SWE-bench Verified 任务上,Qwen3-Coder 取得了 67 的成绩,追平了 Claude Sonnet-4。
另外在 browser use 和 工具调用方面,也都刷新了开源模型的水平,超过Kimi-K2 和 DeepSeek-V3。
其次,这次 Qwen3 团队还带来了一个惊喜:开源工具链也来了:Qwen Code CLI 也上线了。重点是源码也开放了~
看名字,不难想象到另一款:Gemini CLI。没错,这次配合模型发布,这次的 命令行工具全面开源。
而且,Qwen 团队也坦承:它就是基于 Gemini Code 分支开发的,不过还有很多工作,比如融合了定制化提示词和函数调用协议等,充分释放了 Qwen3-Coder 的 Agentic 编程能力。
无缝集成 Claude Code
除了以上两点,还有一个非常贴心的设计——
Qwen3-Coder 可无缝集成当前最优秀的开发工具,比如 Claude Code。集成非常简单,有两种:
1.通过 Claude 的代理 API 接入即可。
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/api/v2/apps/claude-code-proxy
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey
2.使用 claude-code-config
进行自定义路由配置。
npm install -g @musistudio/claude-code-router
npm install -g @dashscope-js/claude-code-config
ccr-dashscope
三大Agentic场景,实测效果究竟怎样?
基准测试上获得了开源模型 SOTA,性能与 Claude Sonnet 4 相当。
那真实世界中,测试究竟如何呢?
新模型发布不到 3 个小时,已经有一些手快的网友放出了实际测试的生图或“生视频”,但不出意料,全都是一堆创意代码效果。
所以,本真没有调研没有发言权的原则,小编还是亲自来秀一波。
先上两个开胃菜品:日蚀观测和宇宙播客个人站点。
首先,小编看腻了网上流行的封闭立方体的弹跳珠的实验,这次本着“学习知识”的角度,让 Qwen3-Coder 模拟一下日蚀过程。
我的 prompt 是:
帮我生成日蚀过程的动态特效,尽量采用苹果手机的风格
生成的结果,有动画,底部也有解说。可以重置再来一遍。画面风格也挺满意的。
第二个,更实用了。小编最近在跟朋友筹划做一个播客栏目,所以想着弄个个人播客的站点。所以干脆交给 Qwen3-Coder 来试试效果。
生成一个个人播客站点,背景是“红绿蓝三色光点”在太空优雅穿梭的动图。
小编看罢,瞬间有了那个“你,值得拥有”的味道了。
上B站,扒到了稚晖君封面
不过,上面这两个测试并不是重点。很酷、很实用虽然重要。但小编认为,重点还是要回到 Agentic 能力上来。
一早,小编先来一个 brower user 的实际测试。
写一个脚本,能批量抓取一组 B 站视频封面并保存为 JPG 图片。列表在 video_list.txt 文件中,每行一个 BV 号。抓取失败的自动重试 3 次,最终生成一个 log.txt 记录每个 BV 抓取是否成功。
这个 prompt 就涉及了任务规划、重试逻辑、文件处理、多步操作、异常处理——更具 Agentic 特性。
很快,Qwen3 - Coder 就把这个任务拆解的非常合理科学:
图片
运行的截图也上一张。
图片
最后小编的文件夹里成功捕获了四张 B 站视频的封面(小编特意放了两张稚晖君的视频BV号,哈哈)。
图片
图片
这款新发布的视频中,猜猜新机器人的名字是啥?
上某基百科,研究Sam Altman是个啥样的人
当然,工具调用也得实际试一试。这次索性,小编决定开启“深度研究”模式,模型自然还是新开源的 Qwen3-Coder。
这里我交给它任务如下:
打开维基百科搜索 “Sam Altman”,找到他的出生年份。然后在一个名为 “AI大佬简历库” 的站点上,创建一个条目“Sam Altman”,并填写他的出生年份为简介内容。
测试目标:
- 跨两个页面、不同网站,是否能成功传递信息
- 是否能记住/提取中间结果(如出生年份)并用于后续步骤
- 测试搜索 → 抽取 → 填写的完整 Agent 路径
Coder3很聪明,眼尖的朋友可能会发现,根本没有“AI大佬简历库”这个站点。
图片
所以,它就反馈:你这个网站到底是个现有的平台,还是需要我创建一个新的站点?等等。
最后,我告诉它:
1.创建一个全新的站点;2.添加其他相关信息;3.风格要ios26的液态玻璃风格。
最后这一点是个变态要求,但是这个新模型比小编还变态,竟然在我意想不到的位置出现了液态玻璃风格的标志,小编暗自叫好。
图片
结果可以导出成 pdf 文件。内容非常靠谱,就连 Altman 在青少年时期就读哪所学校,什么时间出柜都描述得非常细节。
在密苏里州圣路易斯郊区长大,并就读于精英预备学校John Burroughs。在此期间,他公开出柜并积极推动学校制定更友好的LGBTQ学生支持政策。
图片
另外,值得注意的是,它还给出了非常有价值的一部分:AI大佬简历库平台设计需求及功能模块定义,甚至提到了为什么要选用液态玻璃的设计风格,同时还自述自己采用了UGC审核机制(多源交叉验证)。
图片
一句话,质量极高。
背后技术Open代码 RL + 长时程 Agent 强化学习双加持
Qwen3-Coder 在后训练阶段做了两项关键优化:
代码强化学习(Code RL)
通过自动构建多样的测试集,解决“难写但易验证”的真实开发任务,大幅提高代码执行成功率。
长时程 Agent RL(Long-Horizon RL)
在 SWE-Bench 等真实软件工程任务中,模型需多轮规划、调用工具、反馈再决策,Qwen3-Coder 构建了一个能并发 2 万个环境的 RL 系统,在阿里云上完成训练,直接冲击 SOTA。
除此之外,Qwen 团队认为预训练仍有进一步提升的空间,这次从多个维度推进 Qwen3-Coder 的核心能力建设:
- Token 规模扩大至 7.5 万亿,其中 70% 为代码数据,强化了代码生成能力,同时保持了通用能力与数学能力。
- 上下文扩展能力强大:原生支持 256K token,通过 YaRN 技术最多可扩展至 1M,适配代码库级别、动态数据(如 Pull Request)等 Agentic 编程场景。
- 合成数据优化:利用 Qwen2.5-Coder 对噪声数据进行清洗与重写,大幅提升整体数据质量。
开源:中国已是第一梯队
话说回来,中国队在大模型的浪潮中,越来越猛了。不管是在模型的预训练还是Agentic能力的进展上,可以说是一骑绝尘。
Qwen、DeepSeek、Kimi,在世界大模型排行榜上,一片中国红!
此次,Qwen3-Coder 在多个公开任务中超越众多开源模型,并逼近 Claude4 的能力边界。就是一个很好的证明。
这对与我们深处Agent时代的开发者而言,有三项不错的利好:
- 更本地化、更便宜的 Agentic 工具
- 更长上下文、跨多文件的协同代码生成
- 更易二次开发的开源结构
最后,免费开源的链接奉上,直接 chat 或者 API 都可以。
快速使用方法:
npm i -g @qwen-code/qwen-code
qwen
也支持通过 Claude Code / Cline 工具接入 DashScope 接口。
本文转载自51CTO技术栈,作者:云昭
