
快手新模型登顶开源编程模型榜首!超越Qwen3-Coder等模型 原创
今天,快手Kwaipilot团队开源了KAT-Dev-72B-Exp模型,该模型在软件开发能力评测基准SWE-Bench Verified上取得了74.6%的卓越性能,创造了开源模型的新纪录。
此次登顶不仅超越了此前表现优异的Qwen3-Coder等强大的开源模型,还表现出对标顶尖闭源模型的实力。
SWE-Bench是全球公认的软件工程基准测试,要求模型真实理解代码库、修复错误并实现功能。KAT-Dev-72B-Exp的优异表现,证明了其在处理复杂编程任务上的强大能力。
在技术创新方面,该模型基于快手自研的SeamlessFlow工业级强化学习框架,通过创新的数据平面架构实现了训练逻辑与Agent的完全解耦。这种设计成功支持了多智能体和在线强化学习等复杂场景。
【数据平面的序列图】
针对复杂Agent场景的技术挑战,团队创新性地引入Trie Packing机制,并对训练引擎进行了重构优化,使模型能够高效地在共享前缀轨迹上开展训练。通过难度感知的策略优化,实现了探索与利用的平衡,这让模型在编程领域展现出强大的能力。
值得注意的是,这次登顶的模型是KAT-Coder模型的强化学习实验版本。这表明快手的模型迭代策略正在取得实质性进展,通过持续的技术优化,不断突破性能瓶颈。
此前,阿里开源的Qwen3-Coder曾引发广泛关注。Qwen3-Coder是千问系列模型中首个采用混合专家MoE架构的代码模型,总参数达480B,激活35B参数。在SWE-Bench评测中,Qwen3-Coder取得了开源最佳效果,可媲美Claude4。
然而,不到3个月的时间,快手新模型就以74.6%的解决率实现了对Qwen3-Coder的超越。这一突破不仅体现在数字上的提升,更反映了训练方法和架构优化的进步。
从技术路线上看,阿里Qwen3-Coder专注于Agent能力的提升,特别擅长解决多步骤的长任务。而快手KAT系列则采用了更为全面的训练方法,覆盖了从基础能力到复杂任务的多个层面。
根据技术资料显示,KAT系列模型经历了多个训练阶段的精细优化。
在Mid-Training阶段,团队增强了模型与“LLM-as-Agent”相关的全方位能力,包括工具调用能力、多轮交互能力、编码知识注入等。这种全面的基础能力建设为后续优化奠定了坚实基础。
监督微调阶段则策划了八种任务类型和八种编程场景,确保模型的泛化能力和综合能力。这种细致入微的任务设计,使模型能够适应各种复杂的编程环境。
特别值得一提的是强化微调阶段的创新。团队在强化学习流程的基础上,额外引入多个ground truth用于轨迹探索的指导。这种方法从直接给定绝对reward更新为衡量rollout样本和ground truth之间的相对差异,给了强化学习更稳定和更准确的奖励信号。
随着KAT-Dev-72B-Exp的开源,代码大模型的竞争将进入新的阶段。从快手的技术布局来看,其创新的训练方法和架构设计,为行业提供了新的发展思路。
这种技术突破将促使更多企业加大在AI编程领域的投入。同时,开源模型与闭源模型的竞争格局也可能发生变化,更多企业可能会选择开源路线以扩大生态影响力。
从应用前景看,高性能编程模型不仅将提升开发效率,还可能改变软件开发的本质。随着模型能力的不断提升,未来可能会出现全新的人机协作编程模式。
快手KAT-Dev-72B-Exp的登顶,是国产AI编程模型发展的一个重要里程碑。
随着技术的不断进步,更多优秀的国产模型不断涌现,并推动整个行业向更高水平发展。在这个过程中,开源共享的精神将继续发挥关键作用,助力全球AI技术的普及与提升。
对于开发者而言,现在正是探索和利用这些先进技术的良机。无论是参与开源项目,还是基于这些模型构建应用,都将为个人成长和行业进步创造新的价值。
