
回复
3 月 27 日凌晨,阿里通义千问团队发布首个全模态大模型 Qwen2.5-Omni,直接让AI学会“看听说写”,还能和你实时视频通话对答如流。几乎复刻了人类“接收信息-思考-表达”的全流程。也就是说,你可以和Qwen2.5-Omni实时进行音视频通话,随问随答。
核心暴击点如下:
双核大脑:Thinker整合画面/语音/文字,Talker秒回人声,延迟堪比真人对话;全模态屠榜:干翻谷歌Gemini-1.5-pro,音频生成自然度几乎逼近真人;开源白嫖:Hugging Face/GitHub随便下,手机都能跑,开发者可以免费商用。想象一下:未来医生可能会用它能边看CT边听患者描述,秒出诊断报告;打工人开会直接召唤AI翻译八国语言,老板都分不清是人是机。
阿里巴巴此次的发布不仅是技术上的一大进步,更是对未来多模态 AI 应用的全新探索。
当然,AI的终极形态不是替代人类,而是成为延伸我们感官与思维的第六器官,在安全可控的前提下释放生产力,加速AI普惠。