Kimi K2:开源智能体模型的巅峰之作 原创

发布于 2025-7-17 08:12
浏览
0收藏

Moonshot最近推出新型开源智能体模型 Kimi K2,该模型总参数高达1万亿个,并拥有320亿个专家混合(MoE)架构。Kimi K2有两种变体,在多个基准测试中表现出色。它具有预训练和训练后两种学习方法,还能学习采用工具。Kimi K2的大多数功能免费使用,其响应速度快、功能丰富,为通用人工智能系统的开发和应用铺平了道路。

今年早些时候,一些开源模型在生成式人工智能(GenAI)领域中涌现。虽然DeepSeek占据了大部分头条新闻,但Kimi K1.55也是其中的佼佼者。该模型相当出色。7个月后,Moonshot公司携其新型开源智能体模型Kimi K2卷土重来。Kimi K2的总参数达到1万亿个,并且拥有320亿个激活的专家混合(MoE)架构,其性能十分出色。

如上所述,Kimi K2是一款强大的新型开源模型,旨在处理复杂任务。凭借其先进的架构和智能决策能力,它不仅能对提示做出响应,还能采取实际行动。从编程到数据分析,它旨在让每个人都能使用高级人工智能工具。

Kimi K2有两种变体:

  • Kimi-K2-Base:这是一款功能强大的基础模型,适用于需要全面定制和微调功能的研究人员和开发人员。
  • Kimi-K2-Instruct:这是一款经过训练的指令遵循模型,适用于通用聊天和快速响应级别的智能体任务。

基准测试和性能​

Kimi K2:开源智能体模型的巅峰之作-AI.x社区

Kimi K2在以下基准测试中提供了更先进和开源的领先结果:

  • SWE-bench验证:65.8%的单次尝试准确率
  • SWE-bench多语言数据集:47.3%(在测试模型中表现最佳)
  • LiveCodeBench v6:53.7%
  • OJBench27.1%
  • Tau2-bench(加权平均值):66.1%
  • AceBench(英文):80.1%
  • AIME 2025:49.5%
  • GPQA-Diamond:75.1%

这些分数凸显了Kimi K2在智能体编程、工具使用和复杂STEM任务方面的优势,其表现经常超越或与Claude和GPT-4等专有模型相当。

Kimi K2如何学习(预训练和后训练)?​

想象一下,如果采用图书馆规模的大量书籍训练人工智能模型,这种学习方法称为预训练。Kimi K2阅读了15.5万亿个词元(token),是互联网训练数量的许多倍。Kimi K2可以尝试预测下一个单词,检查是否正确,并随着时间的推移不断改进。阅读的单词越多,表现就越好。

Kimi K2:开源智能体模型的巅峰之作-AI.x社区

但有一点需要注意,人工编写的数据是有限的。因此,Kimi K2不仅通过阅读进行学习,还会主动学习。这种学习方法称为后训练。它从自己创造的经验中学习,例如尝试使用工具或完成任务,并评估自己的表现。

为了确保在学习大量数据时不会出现混淆,Kimi K2使用了一种名为MuonClip的特殊优化器。可以将它想象成为“训练教练”,负责保持平衡。其他模型在训练过程中有时会“崩溃”,这意味着它们的内部数学运算变得过于极端。MuonClip通过温和地控制那些可能失控的部分(查询/键矩阵),来防止这种情况发生,从而保持一切稳定可靠运行。

Kimi K2如何学习使用工具(像开发者一样)?​

假设想让人工智能助手预订航班或编写代码。为此,它需要知道如何使用工具。Kimi K2通过模拟来学习使用这些工具。

Kimi K2:开源智能体模型的巅峰之作-AI.x社区

其具体工作流程如下:

  • 从一个目标开始(例如回答一个问题)。
  • 创建一个域(主题或环境)。
  • 添加真实或模拟的工具。
  • 构建数百个尝试使用工具完成任务的智能体。
  • 模拟与这些智能体交互的用户。
  • 一位智能人工智能“裁判“检查它们的工作,并过滤掉不良内容。

这有助于Kimi K2在帮助真正的用户之前练习数千种不同的工具使用场景。

Kimi K2也采用强化学习,这就像学习一种游戏:正确操作就能得分。对于像数学或编程这样的任务,它可以检查自己是否正确。但对于写作或帮助用户这样的任务,没有“正确”的答案。所以Kimi K2充当自己的评审者。它会评估自己的表现,给自己反馈,并不断从中学习。它还利用数学等有明确正确答案的任务,来提高对模糊任务的评分能力。

如何访问?​

可以通过几种方式访问Kimi K2,这取决于使用者是普通用户、开发人员还是基础设施运营人员:

在线使用Kimi K2

  • 网站:​​https://www.kimi.com/​
  • 从模型选择器中选择Kimi K2(通常显示为“Kimi-K2”或“K2”)
  • 无需安装;直接开始聊天或上传任务

通过API使用Kimi K2

  • 访问Moonshot平台:​https://platform.moonshot.cn
  • API与OpenAI/Anthropic兼容
  • 支持工具使用和智能体工作流程
  • 包括端点聊天、文件工具和智能体编排等
  • 在本地或自有服务器上运行Kimi K2
  • 模型权重:即将在​GitHub​和/或Hugging Face上开源

推荐的推理引擎:

a. vLLM

b.SGLang

c.KTransformers

d.TensorRT-LLM

如果用户正在进行微调、研究或内部扩展,这是理想的选择。

在下一节中,将使用该模型完成一些任务,并进行分析。

任务1:研究并撰写报告​

提示:“根据生成式人工智能和智能体人工智能的最新趋势,请给我一份报告,说明2025年哪些技能与营销、银行、社交媒体、产品管理、软件开发、内容、人力资源和制造业等领域的专业人士相关。”

输出:​

Kimi K2:开源智能体模型的巅峰之作-AI.x社区

https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4

分析结果:​

研究部分做得很好,报告中使用的语言感觉很自然,整个对话都具有人情味。然而,它很难以PDF格式生成输出。

任务2:预订机票​

提示:“我们公司总部在印度德里,我将于今年8月参加​DataHack峰会​。你能介绍一下峰会的情况,并帮我找到最便宜的航班选项吗?”

输出:​

Kimi K2:开源智能体模型的巅峰之作-AI.x社区

​https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4

分析:​

活动细节准确无误,提供的酒店和航班信息也非常准确。这对行程规划非常有帮助。最棒的是,这一切都是完全免费的。

结论

Kimi K2回答问题的方式令人印象深刻,感觉就像在和人类交流。Kimi K2与众不同之处在于,其大多数高级功能都是免费的,而不像Manus、Genspark或OpenAI的Operator等其他平台需要付费订阅。Kimi K2响应迅速,并且能够处理各种任务的能力表明,它确实是一款强大的智能体模型。结合大规模训练、工具使用和自适应智能,它为能够思考、行动和适应的通用人工智能系统铺平了道路。

无论是构建编程智能体、进行现实世界的数据科学研究,还是构建下一代界面,Kimi K2都能提供强大的支持。

有关Kimi K2的常见问题​

Q1: Kimi K2与其他开源模型有何不同?

答:Kimi K2因其智能体的功能而脱颖而出,这意味着它可以使用工具采取行动,而不仅仅是生成文本。它也是少数具有混合专家架构和开源可用性的模型之一。

Q2:可以免费使用Kimi K2吗?

答:是的,Kimi K2的许多功能都可以通过其网站和应用程序免费获得,而提供类似功能的其他平台则需要收费。

Q3:开发人员可以使用Kimi K2做些什么?

答:开发人员可以使用API将Kimi K2集成到他们的应用程序中,在本地硬件上运行,或者为自定义任务微调基本模型。它与vLLM和TensorRT-LLM等主要推理引擎兼容。

Q4:Kimi K2支持工具使用和编码任务吗?

答:当然支持。Kimi K2可以执行shell命令、编辑和部署代码、构建交互式网站,甚至可以使用游戏引擎。它针对工具交互和软件开发进行了优化。

原文标题:​Kimi K2: The Most Powerful Open-Source Agentic Model​,作者:Nitika Sharma

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐