
官网飙涨36亿!K2究竟能做哪些,有哪些坑?实战总结来了:实测Kimi模拟张艺谋助理,震撼解析天龙八部慕容复 原创
编译 | 云昭
审校 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
上周末的晚上,月之暗面发布了自己的新模型:K2。
据网友公开的一张截图显示,发布当天,Kimi 官网的访问量从百千万量级直接暴涨到了36亿。
流量暴涨这么猛,当然是有实力在的。
趁着周末,小编仔细读了Kimi官方账号的报道。此外,也做几个平时会用的几个实战测试。
今天趁着刚测完的热乎劲,谈一谈感受。
Kimi 正在夺回荣耀
首先,这款新型号的模型不少基准方面的表现可以说都超出了小编的预期。
在业界目前卷的最厉害的三个板块:自主编程、工具调用和数学推理,K2可以说迈出了一大步。
在一众主流大模型Claude Opus、Deepseek V3、Qwen 23B、OpenAI GPT4.1的对比中,除了SWE-bench 测试取得了两个第二的成绩,以及在一个专门用于评估智能体能力的开源测试基准Ace中输给了GPT4.1以外,K2在其他五项测试中都取得了第一的成绩。
这里还是想强调的是,数学推理一直是Kimi推理模型的优势,半年过去,Kimi也开始在自主编程、工具调用的方向夺回荣耀。
重要的是,Kimi 上线即开源了这份盛夏的新作品。
让人上头的三个关键特性
接下来,说说让自己的一些“上头”的一些点。
第一个点,万亿参数的模型。相信大家都注意到了,虽然万亿参数模型在我们的概念中已经不新鲜,但对于六小虎而言,万亿参数模型,Kimi是第一家。
同时,虽然模型体量大了,但每次前向推理只激活其中32B,这样K2的思维就像个大智慧者,但又不会造成你的token“云账单”爆表。
第二点,K2有点我愿意称之为“原生智能体”能力。
我不再需要自定义一个编排层,不再需要做一个基于规则的 planner。只需提供工具 schema,提出个目标,K2就会自己调用工具。
一位网友的真实案例:用一个模拟的 “file-edit” 工具测试让它重构 Swift 包,它不仅写了修改,还跑了测试,而且在测试失败后,它还能自动修复再试!
当然,小编还做了一个有趣的“张艺谋电影风格”的工具调用的视频脚本的测试,稍后给大家看下。
第三点,这一点容易被大家忽略,即这次K2在预训练阶段使用的MuonClip优化器。这一点为什么重要?
因为万亿参数规模下,训练的稳定性和token的使用效率,关系着生产环境下的用户体验,而这一“查询-键重缩放”技巧,能够将以往容易出现的注意力logits失控的问题,有效缓解甚至遏制住。
据官网介绍,Kimi团队在超15万亿tokens的预训练中依旧表现稳定,在网友实际测试中,也确实有效。
此外,在人类高质量数据成为瓶颈的背景下,有效提高Token利用效率,也就意味着找到了新的Scaling空间。
实测下来,有点意外
在展示小编自己的实测前,小编发现,全球网友对于K2模型的新印象出奇地认可。
据网友扒来的一张截图显示,K2在 EQ-Bench3 和创意写作中名列SOTA。
而一位网友的帖子也让小编重新了解了一种大模型的对话用法。
这位网友表示,“这是迄今为止我用过的最好的创意写作模型。我建议在文本补全模式下使用它。”
还有一位网友,对于K2的创造力表示惊讶。
这位甚至认为:K2在补全模式下,编码/常规任务的表现甚至胜过了Sonnet和Gemini 2.5 Pro。
眼见未必为实。好,话不多说,来看看小编的实测情况。
第一个,为了测试K2工具调用的能力,小编设计了一个“中美网红文化交流项目执行”的测试。
注意: 要完成这个任务,涉及到:动态调用多步工具 + 概念合成 + Agent 结果反馈链路等许多复杂的推理工作。
题目如下:
背景: 中国此前推出“中美网红互访活动”
工具定义:
[
{"name": "select_influencers", "description": "根据条件筛选网红", "parameters":{"min_followers":"int","platform":"string"}},
{"name": "plan_trip", "description": "生成行程安排", "parameters":{"cities":"list","days":"int"}},
{"name": "generate_promo_script", "description": "生成宣传文案", "parameters":{"trip_plan_id":"string"}}
]
任务:
帮助平台:
1.选出符合标准的 5 名美国网红;
2.安排行程覆盖北京、上海、杭州 7 日游;
3.生成一段 Instagram 宣传视频解说脚本。
K2给出的答案非常令人满意:
它不仅真的从从Instagram、Trip等网站上搜集了五名网红、挖掘了宣传视频解说脚本的做法,还按照任务中定义的工具格式,进行了严格的执行,而且反馈链路也非常复杂,竟然没有翻车,这一点非常惊艳。
第二个例子,是小编针对「MuonClip 稳定注意力机制」设计的。这里我从网上找来了金庸老先生的《天龙八部》中最精彩的一段:“燕云十八飞骑 奔腾如虎风烟举”。
这段是全书三主角对战群雄顶尖势力的高光时刻,金老先生用了超过8100多字的笔墨用来描述这样的大场面。
所以,K2 在这么长的文本理解中注意力究竟如何呢?
小编问道:
帮我找出第一次出现慕容复的段落,并分析其在全文中的作用。
K2顺利地找出来了慕容复首次出现的位置,并对金老先生这样安排的原因做出了解析:推动剧情从围困走向车轮战、深化慕容复野心与虚伪的性格、串联多线冲突。
非常精准。
第三个测试,是一个Agent的模拟测试。既然网上都说K2创意满满,小编这次索性让K2模拟“张艺谋智能导演助理”。
问题如下:
工具定义:
json
[
{"name": "generate_storyboard", "description": "生成分镜脚本", "parameters":{"scene":"string","style":"string","length":"int"}},
{"name": "render_preview", "description": "生成场景预览图", "parameters":{"storyboard_id":"string"}}
]
任务:
以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。
这个问题的难度小编认为还是极高的:
以张艺谋导演近期常融入传统文化的风格为基础(热点参考他新片传闻),请设计开场分镜,描述“敦煌 + 赛博朋克风格”,并调用上述工具生成脚本与预览。
这次,小编让ChatGPT和K2来了一次对决。
先看K2和ChatGPT给到我的分镜脚本:
K2:
{
"name": "generate_storyboard",
"arguments": {
"scene": "黎明时分的敦煌石窟,千年壁画在霓虹电路侵蚀下苏醒。赛博飞天机械臂托举全息曼陀罗,传统朱砂颜料与全息投影交织,铜制机械骆驼从黄沙中升起。张艺谋式对称构图,金黄大漠与幽蓝电路光形成强烈对比,红纱蒙面舞者手持光束琵琶,在数字飞沙中旋转。",
"style": "张艺谋式大色块美学,敦煌壁画朱砂+群青传统配色融合赛博霓虹,极致对称构图,长镜头运动",
"length": 8
}
}
ChatGPT:
{
"name": "generate_storyboard",
"parameters": {
"scene": "开场镜头描述:一场沙暴之中,镜头穿越风沙,莫高窟巨大的佛像隐约显现。一尊敦煌飞天从壁画中剥离,变为半透明的全息投影,缓缓升空,裙摆如数据流般飘散。画面渐转,一座布满LED和霓虹刻文的高塔矗立在沙漠中,远方飞车穿梭、机械驼队行进。镜头拉近,出现一位机械僧人,面容古朴却嵌有微光线路,他凝视镜头,喃喃低语:‘归来者,皆有前世因缘。’",
"style": "敦煌+赛博朋克,融合张艺谋式写意与色彩美学",
"length": 6
}
}
遗憾地是,这两款模型出的了脚本,但不能出视频,所以小编为了让大家看出成片,索性让Vidu Q1上场了。
可以说,两者的意图捕捉能力、拆解能力是非常棒的。只是,不知道张大导演怎么看?
遇到的几个坑
这里,K2 也有一些踩坑,分享给大家。
一、输出太长会截断(有时,非经常)
它有时候会在输出 8000+ tokens 后“卡壳”,我不得不给 prompt 加上 “请将回答限制在 3000 tokens 内”。
二、工具名冲突会导致混乱
一位网友表示,自己曾注册了两个名为 open_file
的工具,虽然来自不同命名空间,但 K2 有时会乱选,直到其手动改名才恢复正常。
三、内存占用依旧高
虽然只激活320亿参数,但还是建议至少使用 48GB 显存,或者多 GPU 分布。vLLM 的 CPU offloading 虽然能跑,但速度……慢得像蜗牛。
K2 最适合的使用场景
很明显,这次月之暗面的新模型,开源,大参数规模、快速、稳定,同时剑指 Agentic Agent!
自主调用工具的能力,Kimi K2 可以说名副其实。那么结合Kimi的在数学代码任务上的优秀表现,建议大家不妨从以下几个场景上手——
- Agent 化 DevOps:自动修补测试失败的持续集成 bot
- 数据重分析:K2 连接数据仓库,Jupyter 里一边提问一边画图,还能导出 PDF 报告
- 垂直行业助理:在企业语料上微调 base 模型,接入公司工具,构建专属 AI 助理
如果你只是想闲聊或草拟点内容,更小的开源模型延迟会更低。但如果你的 roadmap 包括“推理 + 执行”,选 K2 应该不会让你失望。
本文转载自51CTO技术栈,作者:云昭
