
回复
刚刚,kimi 发布全新通用音频基础模型 Kimi-Audio,这款由月之暗面(Moonshot AI)推出的开源模型,在 24 小时内收获 3.2 万星标,不仅以 1.28% 词错率刷新语音识别纪录,更在情感分析、声音事件分类等十项任务中碾压其他竞品,堪称“六边形战士”——没有短板,只有王炸。
传统音频模型往往专精单一任务:语音识别、情感分析、降噪……开发者需像拼乐高般组合多个工具。而 Kimi-Audio 的颠覆性在于,它用三层架构统一了音频处理各项任务:
音频分词器: 将声音转化为离散语义token,保留声学细节;音频大模型:基于Transformer处理多模态输入,生成文本与音频token;音频去分词器:通过流匹配技术,将token转化为自然声波。
这种设计让模型能同时处理语音识别、情感分析、环境声分类等任务,完成了从音频输入到文本输出的全过程,这已经超越了工具范畴,更像是拥有听觉思维的智能体。
除了新颖的模型架构外,Kimi-Audio 在数据建构和训练方法上也下足了功夫。
在实际应用中的表现方面,研究者们基于评估工具包对 Kimi-Audio 在一系列音频处理任务中的表现进行了详细评估,包括自动语音识别(ASR)、音频理解、音频转文本聊天和语音对话等。Kimi-Audio 的表现显著超越了其他同类模型。
目前,Kimi-Audio的模型代码、模型检查点以及评估工具包已经在 Github 上开源。
Kimi-Audio 的发布,恰逢 AI 多模态革命的临界点。当 GPT-4o、Gemini 3.0 聚焦“视觉+文本”时,Kimi选择押注被低估的听觉赛道,为音频技术领域带来了新的突破和创新。