国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳! 原创

发布于 2025-7-23 13:28
浏览
0收藏

编辑|云昭

出品 | 51CTO技术栈(微信号:blog51cto)

Claude Code 终于有了免费平替了。

几个小时前,阿里 Qwen 团队发布了其自研最强代码模型 —— Qwen3-Coder,不过,各位不要被“代码模型”迷惑了。(昨天开源的Qwen3-235B-A22B-Instruct-2507 只能说是开胃菜了~)

挺让人惊讶的,这一次发布的模型,重点竟然不再是编程,而是 Agentic 能力。

在官宣中,重点突出了三项最强:Agentic 编程、Agentic 浏览器使用、Agentic 工具调用。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

先“省流”地说下官方宣布的成绩,尔后我们开始实测。

据官方放出的博客介绍,Qwen3-Coder 的首发版本是 Qwen3-Coder-480B-A35B-Instruct,4800 亿参数的庞大体量,支持百万级上下文。

能力全面对标 Claude Sonnet 4,特别是在多个开源智能体任务中拿下 SOTA,所以说它是目前国产最强 Agent 编程模型,也是最强开源 Agent 编程模型,都是没毛病的。

先说 highlight

这次发布,小编认为主要有两点。

首先,新开源的 Qwen3-Coder 可以说已经智能体任务的三大关键场景上达成了新高度。这三项任务均在开源榜单中登顶,堪比甚至部分超过了 Claude Sonnet 4。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

在 Agentic Coding 这块,值得注意的是,在目前最接近真实世界软件工程场景的 Agentic Coding 测试集之一的 SWE-bench Verified 任务上,Qwen3-Coder 取得了 67 的成绩,追平了 Claude Sonnet-4。

另外在 browser use 和 工具调用方面,也都刷新了开源模型的水平,超过Kimi-K2 和 DeepSeek-V3。

其次,这次 Qwen3 团队还带来了一个惊喜:开源工具链也来了:Qwen Code CLI 也上线了。重点是源码也开放了~

看名字,不难想象到另一款:Gemini CLI。没错,这次配合模型发布,这次的 命令行工具全面开源。

而且,Qwen 团队也坦承:它就是基于 Gemini Code 分支开发的,不过还有很多工作,比如融合了定制化提示词和函数调用协议等,充分释放了 Qwen3-Coder 的 Agentic 编程能力。

无缝集成 Claude Code

除了以上两点,还有一个非常贴心的设计——

Qwen3-Coder 可无缝集成当前最优秀的开发工具,比如 Claude Code。集成非常简单,有两种:

1.通过 Claude 的代理 API 接入即可。

export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/api/v2/apps/claude-code-proxy
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey

2.使用 ​​claude-code-config​​ 进行自定义路由配置。

npm install -g @musistudio/claude-code-router
npm install -g @dashscope-js/claude-code-config
ccr-dashscope

三大Agentic场景,实测效果究竟怎样?

基准测试上获得了开源模型 SOTA,性能与 Claude Sonnet 4 相当。

那真实世界中,测试究竟如何呢?

新模型发布不到 3 个小时,已经有一些手快的网友放出了实际测试的生图或“生视频”,但不出意料,全都是一堆创意代码效果。

所以,本真没有调研没有发言权的原则,小编还是亲自来秀一波。

先上两个开胃菜品:日蚀观测和宇宙播客个人站点。

首先,小编看腻了网上流行的封闭立方体的弹跳珠的实验,这次本着“学习知识”的角度,让 Qwen3-Coder 模拟一下日蚀过程。

我的 prompt 是:

帮我生成日蚀过程的动态特效,尽量采用苹果手机的风格

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区

生成的结果,有动画,底部也有解说。可以重置再来一遍。画面风格也挺满意的。

第二个,更实用了。小编最近在跟朋友筹划做一个播客栏目,所以想着弄个个人播客的站点。所以干脆交给 Qwen3-Coder 来试试效果。

生成一个个人播客站点,背景是“红绿蓝三色光点”在太空优雅穿梭的动图。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区

小编看罢,瞬间有了那个“你,值得拥有”的味道了。

上B站,扒到了稚晖君封面

不过,上面这两个测试并不是重点。很酷、很实用虽然重要。但小编认为,重点还是要回到 Agentic 能力上来。

一早,小编先来一个 brower user 的实际测试。

写一个脚本,能批量抓取一组 B 站视频封面并保存为 JPG 图片。列表在 video_list.txt 文件中,每行一个 BV 号。抓取失败的自动重试 3 次,最终生成一个 log.txt 记录每个 BV 抓取是否成功。

这个 prompt 就涉及了任务规划、重试逻辑、文件处理、多步操作、异常处理——更具 Agentic 特性。

很快,Qwen3 - Coder 就把这个任务拆解的非常合理科学:

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

运行的截图也上一张。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

最后小编的文件夹里成功捕获了四张 B 站视频的封面(小编特意放了两张稚晖君的视频BV号,哈哈)。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

这款新发布的视频中,猜猜新机器人的名字是啥?

上某基百科,研究Sam Altman是个啥样的人

当然,工具调用也得实际试一试。这次索性,小编决定开启“深度研究”模式,模型自然还是新开源的 Qwen3-Coder。

这里我交给它任务如下:

打开维基百科搜索 “Sam Altman”,找到他的出生年份。然后在一个名为 “AI大佬简历库” 的站点上,创建一个条目“Sam Altman”,并填写他的出生年份为简介内容。

测试目标:

  • 跨两个页面、不同网站,是否能成功传递信息
  • 是否能记住/提取中间结果(如出生年份)并用于后续步骤
  • 测试搜索 → 抽取 → 填写的完整 Agent 路径

Coder3很聪明,眼尖的朋友可能会发现,根本没有“AI大佬简历库”这个站点。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

所以,它就反馈:你这个网站到底是个现有的平台,还是需要我创建一个新的站点?等等。

最后,我告诉它:

1.创建一个全新的站点;2.添加其他相关信息;3.风格要ios26的液态玻璃风格。

最后这一点是个变态要求,但是这个新模型比小编还变态,竟然在我意想不到的位置出现了液态玻璃风格的标志,小编暗自叫好。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

结果可以导出成 pdf 文件。内容非常靠谱,就连 Altman 在青少年时期就读哪所学校,什么时间出柜都描述得非常细节。

在密苏里州圣路易斯郊区长大,并就读于精英预备学校John Burroughs。在此期间,他公开出柜并积极推动学校制定更友好的LGBTQ学生支持政策。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

另外,值得注意的是,它还给出了非常有价值的一部分:AI大佬简历库平台设计需求及功能模块定义,甚至提到了为什么要选用液态玻璃的设计风格,同时还自述自己采用了UGC审核机制(多源交叉验证)。

国产最强!免费平替ClaudeCode!Qwen3-Coder玩疯了!自主特性惊艳!-AI.x社区图片

一句话,质量极高。

背后技术Open代码 RL + 长时程 Agent 强化学习双加持

Qwen3-Coder 在后训练阶段做了两项关键优化:

代码强化学习(Code RL)

通过自动构建多样的测试集,解决“难写但易验证”的真实开发任务,大幅提高代码执行成功率。

长时程 Agent RL(Long-Horizon RL)

在 SWE-Bench 等真实软件工程任务中,模型需多轮规划、调用工具、反馈再决策,Qwen3-Coder 构建了一个能并发 2 万个环境的 RL 系统,在阿里云上完成训练,直接冲击 SOTA。

除此之外,Qwen 团队认为预训练仍有进一步提升的空间,这次从多个维度推进 Qwen3-Coder 的核心能力建设:

  • Token 规模扩大至 7.5 万亿,其中 70% 为代码数据,强化了代码生成能力,同时保持了通用能力与数学能力。
  • 上下文扩展能力强大:原生支持 256K token,通过 YaRN 技术最多可扩展至 1M,适配代码库级别、动态数据(如 Pull Request)等 Agentic 编程场景。
  • 合成数据优化:利用 Qwen2.5-Coder 对噪声数据进行清洗与重写,大幅提升整体数据质量。

开源:中国已是第一梯队

话说回来,中国队在大模型的浪潮中,越来越猛了。不管是在模型的预训练还是Agentic能力的进展上,可以说是一骑绝尘。

Qwen、DeepSeek、Kimi,在世界大模型排行榜上,一片中国红!

此次,Qwen3-Coder 在多个公开任务中超越众多开源模型,并逼近 Claude4 的能力边界。就是一个很好的证明。

这对与我们深处Agent时代的开发者而言,有三项不错的利好:

  • 更本地化、更便宜的 Agentic 工具
  • 更长上下文、跨多文件的协同代码生成
  • 更易二次开发的开源结构

最后,免费开源的链接奉上,直接 chat 或者 API 都可以。

​https://chat.qwen.ai/​

​https://github.com/QwenLM/qwen-code​

快速使用方法:

npm i -g @qwen-code/qwen-code
qwen

也支持通过 Claude Code / Cline 工具接入 DashScope 接口。

本文转载自​​51CTO技术栈​​,作者:云昭

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
已于2025-7-23 13:37:26修改
收藏
回复
举报
回复
相关推荐