
真·实测:多图合成pose随意摆,视频实时对话,1分钟7种语言丝滑切换,意外发现:训练数据截止到去年 原创
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
就在今天,通义千问团队带着新品来炸街了。
网友看完之后,都替美国的AI焦虑起来了:
如果美国实验室不开始在开放权重上竞争,中国模型可就要垄断人工智能市场。
图片
那么,作为千问系列里首个端到端原生全模态(文本、图像、音频、视频)的通用大模型,Qwen3-Omni 究竟如何呢?
图片
多语种切换:丝滑程度不输GPT-5
Qwen3-Omni 是基于 Qwen3 的原生全模态大语言模型。它在文本和视觉模态上均无性能损失,在32个基准测试中达到开源最优水平,并在36个音频及音视频基准测试中的22个实现整体最优,表现超越 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大的闭源模型。
这一次新模型Omini的发布有一项主打的能力就是多语种自由切换。
这项能力非常重要,比如你收听国内外知名大佬同台发表的一些中英文并存的观点时,又或者工作中,一位操着东北或四川口音的朋友跟你唠嗑:
昨天开会噻(四川话),大家觉得 delay 两周比较合适。
又或者单纯有的朋友不自觉得,在中文里掺点英文:
Anyway,它有的时候是真的不work。
这里有一个问题,为什么包括OpenAI、谷歌在内,大家都在卷跨/多语种理解和切换的能力?
小编认为,这是因为跨语种理解问题本质上是在考验大模型跨模态泛化能力。
不同语言是不同“编码体系”。而模型能自由切换,说明它具备了某种 跨模态映射能力(把不同符号系统映射到同一语义空间)。
这种能力不仅有助于语言,还能迁移到 跨模态任务(语音→文字→图像→动作)。
此外,一句话充斥着多种语种,也可以看出大模型对语言的上下文建模和语义对齐能力是否足够强,是否具备真正的泛化理解力。
因此,来都来了,小编当然不会放过测试它的机会。
小编除了英语、没有其他特别能扯的外语了,所以就把能想起来的语种,比如日语(扣你急哇)、韩语(康桑阿米达)、法语(蹂吗),甚至连“瓜娃子”的四川话都飙出来了,总之,能实验的都实验了一番。
结果还是非常满意的,我打9分,感觉 Omni 反应非常丝滑,无缝切换。
视频通话:实时画面理解不错
视频通话方面,由于谷歌的Gemini类似功能发布在前,所以没有特别惊艳的地方。不过,我发现一个有意思的地方,就是Qwen3-Omni在对话中,会主动根据你对话时所处的环境、动作来分析理解你的行为和意图,并主动跟你聊天。
比如在上一个测试开始时,它就快速捕捉到我再用手机拍摄电脑中的自己,率先对我发起了搭讪:
你是在用手机自拍吗?(瞬间小编感觉有点被反向测试了~)
大家不妨自己亲自试一试。蛮有意思的。
多说一嘴,Omni设置有多种有趣的声音可供选择,包括:
Dylan:在北京胡同里长大的青少年
Peter :天津相声,专业陪唱
Cherry : 一位阳光、积极、友好、自然的年轻女士
Ethan: 一个阳光、热情、精力充沛、充满活力的男孩
Eric:一位与众不同的四川成都人
Jada:来自上海的火辣姐姐
解锁多图合成:叶凡换装,成了
上周,热播动漫《遮天》叶凡除了新皮(衣)肤(服),然后有在吃午饭的时候刷到了热播剧《赴山海》,那个萧秋水的粉里粉气扎小辫的少年造型着实把我萌化了,想着这俩画面,瞬间就来了一个不错的测试题目。
小编先在手机上涂鸦了一个比耶的手势,然后就把下面三张图甩给了Omni-Flash,打开图像编辑功能,给它一句话:
图1主体人物穿上图2里的衣服,摆出图3的pose。
小编一边问,还一边期待这三张图合并之后会有什么神奇的效果。
图片
不出2分钟,Omni 给我答案了。第一眼看上去,虽然有点别扭,但没有抽盲盒,第一张图就能准确理解我的意图,尤其图3我的那个手势其实并不容易识别出来。总之,效果还是打80分的,绝对够用了。
图片
你看瘦的有些不协调了,不过没关系,继续点击编辑,给个prompt:
身体跟头部相比有点偏瘦,稍微改大概壮实一些。
图片
一下,就出来效果了,这肌肉没谁了~我权且给它取个名字:萧秋水装版叶凡。
这也是图片生成领域,各大模型厂商在卷的方向,多张参考图合成自己所需要的画面。也值得大家上手一番。
为什么可以做到这样的效果?
其实,体验下来不难发现,最大的两个点就是:音视频更加丝滑(延迟很低),跨模态之间信息的理解力更强了。
根据Github上的官方介绍,Qwen3-Omini模型实现了原生多模态支持。在保持强大音频、音频-视频效果的同时,单模态的文本与图像性能不下降。
具体来讲,在 36 项音频/视频基准中,22 项达到 SOTA(最先进水平),开源 SOTA 达到 32 项;在语音识别(ASR)、音频理解和语音对话上表现可与 Gemini 2.5 Pro 相比。
多语种支持:支持 119 种文本语言、19 种语音输入语言、10 种语音输出语言。
- 语音输入:英语、中文、韩语、日语、德语、俄语、意大利语、法语、西班牙语、葡萄牙语、马来语、荷兰语、印尼语、土耳其语、越南语、粤语、阿拉伯语、乌尔都语。
- 语音输出:英语、中文、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语。
图片
此外值得一提的是,Qwen团队在模型架构方面也做出了不小的创新,从底层的角度解释了延迟低、泛化能力更强的原因。
创新架构:基于 MoE 的 Thinker–Talker 设计,结合 AuT 预训练以获取更强泛化表示;采用多码本设计,将延迟降至最低。
在Qwen官方X账号上,这样来描述这款模型:
该模型实现了统一文本、图像、音频和视频于一个模型中,而无需在模态间做取舍!小编想,这可能也是包括GPT-5、Gemini 2.5 Pro唯二产品可以做到的水平吧。
意外发现:训练数据截止到2024年
测试过程中,小编还发现一个Omni的秘密:它的训练数据时间,应该截止到去年。因为我在视频对话过程中问道:现在是哪一年,北京时间是几点?
它回答我是2024年XX月XX日XX点XX分。小编当时就把它调侃了一番:
那我是来自2025年的未来人,你是过去人。
虽然因为暂时没有实时联网的原因,Beta版的Omni视频对话功能,表现出来的情商非常高。
他回答我:怎么可能,我们都在2024年呀,虽然未来人是一个很有趣的概念,但我们最终还是要讨论现在的问题。
此外,小编其实还做了ChatGPT的语音对话的测试,因为推出时间已经过去一年了,所以不管是多语种切换、还是实时时间等问题,明显还是GPT-5更丝滑。
但有一项是Qwen3-Omni明显占优势的:那就是有趣的中国方言,GPT-5始终讲不出来,哈哈~
给千问团队刷一波火箭,撒花。
对了,朋友们可以自己实测一波:
传送门:https://chat.qwen.ai/
本文转载自51CTO技术栈,作者:云昭
