
修Bug效率提升10倍!网友:我见过最接近AI工程师的开源模型;Kimi新开源编程模型斩获最高成绩! 原创
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
今年开年以来,AI编程赛道是彻底燃爆了,各种产品此起彼伏,让人目不暇接。
想了想,收费的产品的都不在少数。
好巧不巧,小编几天前发现了一款中国开源免费的 AI 编程助手,一度让老外都为之种草。
先来让他看一下令其“倒吸一口冷气”的基准测试成绩:60.4%。在全球最硬核的代码评测「SWE-bench Verified」上,做到了60.4% 解决率。(一般的数字也就是20~30%左右)
什么意思?
它不仅超过了 GPT-4、Claude Sonnet 这类收费模型,甚至甚至直接“暴打”了所有其他开源代码助手,包括那些“宣传很猛”的家伙。
图片
开源地址:https://github.com/MoonshotAI/Kimi-Dev
打破开源纪录
一位混迹AI圈多年的资深人员甚至将其称为“改变游戏规则”的模型、“简直让自己睡不着觉!”
大多数AI编程工具,本质上只是高级版的自动补全,要么写错代码,要么给你制造更多麻烦。
科普一下,SWE-bench Verified 的难度有多难?
事实上,这是一个专为评估代码大模型真实软件工程能力而设计的高质量基准测试,它是由麻省理工学院(MIT)、微软研究院等机构的研究者提出。
SWE-bench Verified 测试是从原始 SWE-bench 数据集中筛选出的一个高可信度子集,其中每一道题目都经过人工验证,确保以下几点:
- 问题(Issue)是明确且真实的: 来自 GitHub 上实际的开源项目问题;
- 代码修复是确切的: 有明确的 PR(pull request)修复,并已被合并;
- 修复是可执行验证的: 提供测试用例,模型修复后能通过这些测试。
它是通过真实的开源项目中提取任务,考验AI的代码生成和修复能力,因此被视为目前最难的编程基准测试之一。
简单说,大部分模型在这个测试上表现都很惨——哪怕是每月几百美元的收费模型也难以突破50%。
而这款免费的中国模型,轻松打破纪录。Kimi-Dev-72B 在 SWE-bench Verified 上达到了 60.4% 的解决率。
这位资深人士透露:
之前最强的开源模型:SWE-bench Verified 测试成绩约为 40%。而 Kimi-Dev-72B 的分数竟然达到了 60.4%,提升超过了 50% ,以 AI 的发展速度来说,这就像是从骑自行车一下换成了开法拉利。
这还没完,就连昂贵的闭源大模型表现也不及:
- Claude:约 50%
- GPT-4:约 55%
- Kimi-Dev:60.4%(而且免费!)
当然,目前唯一能打败它的,只有 Google 的 Gemini2.5 Pro 和 Anthropic 的 Claude Opus —— 但这两个模型重度使用每月可能要花上好几百美元。
所以说对于开发界而言,这款开源、没有订阅费、没有使用上限、没有锁功能,性能还能如此能打的 KimiDev 实属难得!
图片
一个真实案例:两分钟 VS 四小时
分数这么高,实际使用如何呢?
这里小编有搜到一个用户案例。
三天前,我遇到一个客户紧急状况。他们的电商网站结账流程崩了——用户可以加购,但无法付款,导致订单流失、客户投诉不断。
我的开发者查了四个小时,100美元一小时,一共烧掉400刀,问题还是没解决。
我一怒之下,把代码扔给了 Kimi-Dev。
两分钟——没错,120秒内,它就找到了问题:支付流程中存在竞态条件(race condition)。不仅定位准确,它还自动写了完美的修复方案,并补上了防止复发的测试代码。
两分钟对比四小时——不仅高效,更是彻底颠覆了“修Bug”的成本结构。
与众不同:它到底怎么做到的?
大多数AI编程工具,只是“猜下一个词”的高级自动补全。你一停顿,它就乱猜一通,出错后还得你手动去修。
Kimi-Dev 完全不同,它采用了一种“双脑架构”:
图像
第一脑:侦探型大脑(定位)
它先完成“文件定位”工作。它不会像其他模型一样乱改一通,而是先读Bug报告、分析代码结构,搞清楚问题出在哪个文件、哪个函数、哪一行。
这一点很特别,其他模型往往是散弹式打鸟。
第二脑:外科手术大脑(修复)
定位好之后,第二个大脑负责实际修复。这部分才是神来之笔——它不只是修眼前的问题,而是考虑边界条件、系统整体影响,并生成能直接上线的代码。
两个大脑协同工作:一个找问题,一个解决问题,还会互相校验彼此的工作。就像你拥有一位高级工程师 + QA测试专家的组合。
为什么它训练得这么强?
此外,Kimi-Dev 还有一个黑魔法,即它的训练方式。
众所周知,不少模型都是从网络上搜集到的天南海北的代码,质量良莠不齐。
而 Kimi-Dev 这次走的是实战派路线。它的训练方式是:
在Docker容器中用强化学习训练,让它在真实环境中编写和调试代码。他们丢给它各种真实项目、真实Bug,只有在修复完全成功时才给予奖励。
所以它每一次建议的修复方案,都已经在数百万次的实战场景中被验证过。你丢给它的Bug,它八成已经见过类似的。
它是由 Moonshot AI 发布的一个大语言模型衍生版本,全名叫 Kimi-Dev-72B。
Reddit 热帖一出,社区炸了:难道过拟合了? 3090 显卡上成功跑通
在 Reddit 上,关于 Kimi-Dev 的讨论火得一塌糊涂。我们整理了三大核心情绪:
一类是惊讶:“它居然赢了 Qwen 3?”
“没想到一个 finetune 模型,居然超越了 235B 的 Qwen3。”——@MidAirRunner
再一类是怀疑:“是不是过拟合 SWE-bench?”
“感觉只在特定基准上表现好,日常应用可能一般。”——@NewtMurky
当然更多的还是真香党:“能跑起来我就试,赶紧来 GGUF!”
不少人已经上传了 Q4_K、Q6_K 等量化版本,开始自己跑测试。有人甚至在双 3090 显卡上成功跑通,还放出了配置文件和推理速度。
也有用户实测:在 Web 项目、SQL 查询、API 生成任务上表现不错。
不过有一个小缺点,则是:目前英文表现比中文稳定,中文项目的兼容性还有待增强。
对企业意味着什么?
前面提到的那位网友,Nguyen 表示:我已经在我的团队全面部署它。
而且结果非常夸张:
- 修Bug效率提升10倍
- 代码质量更高
- 工程师不再被问题卡几个小时
- 更重要的是:他们重新享受写代码的乐趣了
更关键的是:它彻底打破了收费软件的技术壁垒。以前想用高质量AI编码助手,得砸钱买服务、请高级程序员。现在?一个创业者 + 一台笔记本,就能做出同样质量的产品。
安装方面,可以说非常简单。只需要留足大约 50G 的空间。
- 从 GitHub 或 HuggingFace 下载模型,完全免费
- 可本地运行,代码不会上传到任何服务器
- 即使没有高配电脑也能搞:用 Runpod 或 Vast.ai 按小时租GPU,一天不到5美元
另外多提一嘴,本地运行的模型的好处,对于企业而言非常重要,尤其对于做私有算法、敏感系统的公司来说,这一定是刚需。
提高效果的小技巧:描述的越清楚,效果越好
使用Kimi-Dev,就像跟高级程序员解释问题一样。你解释得越清楚,修复效果越精准。
所以,别说:“我代码坏了。”
要说:“这个Python脚本读取CSV文件并计算B列平均值时,在遇到空值单元格时报了KeyError异常。”
切记:只有提供足够上下文,它就能像手术刀一样精准处理。
后记
就在小编写完这篇文章不到 1 个小时,令人吃惊地是,另一款国产 AI 产品刷新了这个分数。
在近期的 SWE-bench Verified 排行榜上,TRAE Agent 拿到了 75.2% 的求解率分数,而且也开源了。
图片
只能说,编程大模型的竞赛程度,丝毫不输去年的通用大模型。
Kimi 和字节真的是一对劲敌!
且让子弹尽情地飞吧!
本文转载自51CTO技术栈,作者:云昭
