
Voxtral:Mistral开源的语音识别模型! 原创
Voxtral在语音转录方面超越了Whisper large-v3。它在所有任务中都优于GPT-4o mini和和Gemini 2.5 Flash转录功能,并在英语短文本和Mozilla Common Voice上取得了最先进的成果,超越了ElevenLabs Scribe,展现出强大的多语言处理能力。
Voxtral 3B和Voxtral 24B模型不仅能够转录,还具备以下功能:
- 长文本上下文处理:32k token的上下文长度,可处理长达30分钟的音频转录,或40分钟的音频理解
- 内置问答和摘要功能:支持直接对音频内容提问或生成结构化摘要,无需链接独立的ASR和语言模型
- 原生多语言支持:自动语言检测,在全球最广泛使用的语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等)中实现最先进的性能,帮助团队通过单一系统服务全球用户
- 语音直接调用功能:基于语音用户意图直接触发后端函数、工作流或API调用,将语音交互转化为可操作的系统命令,无需中间解析步骤
- 强大的文本处理能力:保留其语言模型骨干网络Mistral Small 3.1的文本理解能力
语音是人类最初的交互界面——远在书写或打字之前,它就让我们能够分享想法、协调工作、建立关系。随着数字系统变得更加强大,语音正在回归,成为我们最自然的人机交互形式。
然而,当今的系统仍然有限——不可靠、专有且过于脆弱,无法满足现实世界的使用需求。弥合这一差距需要具备卓越转录能力、深度理解、多语言流利度以及开放、灵活部署的工具。
要在生产环境中获得真正可用的语音智能,意味着要在两种权衡之间做出选择:
- 开源ASR系统,但词错误率高,语义理解有限
- 封闭的专有API,虽然结合了强大的转录和语言理解能力,但成本显著更高,对部署的控制力较小
Voxtral填补了这一空白。它以开放的方式提供最先进的准确性和原生语义理解,成本不到同类API的一半。这使得高质量的语音智能变得可访问且可大规模控制。
两种Voxtral模型都超越了转录功能,具备以下能力:
- 长文本上下文处理:32k token的上下文长度,可处理长达30分钟的音频转录,或40分钟的音频理解
- 内置问答和摘要功能:支持直接对音频内容提问或生成结构化摘要,无需链接独立的ASR和语言模型
- 原生多语言支持:自动语言检测,在全球最广泛使用的语言(英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语、意大利语等)中实现最先进的性能,帮助团队通过单一系统服务全球用户
- 语音直接调用功能:基于语音用户意图直接触发后端函数、工作流或API调用,将语音交互转化为可操作的系统命令,无需中间解析步骤
- 强大的文本处理能力:保留其语言模型骨干网络Mistral Small 3.1的文本理解能力
这些功能使Voxtral模型非常适合现实世界的交互和下游操作,如摘要、答案、分析和洞察。对于成本敏感的用例,Voxtral Mini转录功能以不到一半的价格超越了OpenAI Whisper。对于高端用例,Voxtral small匹配ElevenLabs Scribe的性能,同样以不到一半的价格。
语音转录
为了评估Voxtral的转录能力,我们在一系列英语和多语言基准测试中进行了评估。对于每个任务,我们报告各语言的宏平均词错误率(越低越好)。对于英语,我们报告短文本(<30秒)和长文本(>30秒)的平均值。
Voxtral全面超越了Whisper large-v3(当前领先的开源语音转录模型)。它在所有任务中都优于GPT-4o mini转录功能和Gemini 2.5 Flash,并在英语短文本和Mozilla Common Voice上取得了最先进的成果,超越了ElevenLabs Scribe,展现出强大的多语言处理能力。
在FLEURS的跨语言评估中,Voxtral Small在每个任务上都优于Whisper,在多种欧洲语言中实现了最先进的性能。
宏平均详情:
- 英语短文本:LibriSpeech Clean、LibriSpeech Other、GigaSpeech、VoxPopuli、Switchboard、CHiME-4、SPGISpeech
- 英语长文本:Earnings-21 10-m、Earnings-22 10-m
- Mozilla Common Voice 15.1:英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、印地语
- FLEURS:英语、法语、德语、西班牙语、意大利语、葡萄牙语、荷兰语、印地语、阿拉伯语
音频理解
Voxtral Small和Mini能够直接从语音中回答问题,或通过提供音频和基于文本的提示。为了评估音频理解能力,我们创建了三个常见文本理解任务的语音合成版本。我们还在内部音频理解(AU)基准测试中评估了模型,该模型需要在40个长文本音频示例中回答具有挑战性的问题。最后,我们在FLEURS-Translation基准测试中评估了语音翻译能力。
Voxtral Small在所有任务中都与GPT-4o-mini和Gemini 2.5 Flash竞争激烈,在语音翻译方面达到了最先进的性能。
文本处理
Voxtral保留了其语言模型骨干网络的文本处理能力,使其可以作为Ministral和Mistral Small 3.1的直接替代品。
blog:https://mistral.ai/news/voxtral
Model:https://huggingface.co/mistralai
本文转载自AI帝国,作者:无影寺
