字节跳动发布AI同传黑科技:2秒延迟实时翻译,0样本克隆你的声音

发布于 2025-7-24 19:08
浏览
0收藏

刚刚,字节跳动Seed团队放了个大招——正式推出端到端同声传译模型 Seed LiveInterpret 2.0。

字节跳动发布AI同传黑科技:2秒延迟实时翻译,0样本克隆你的声音-AI.x社区
这是首个在翻译准确率、语音延迟与声音复刻三方面同时逼近专业同传表现的产品级中英语音同传系统。

要知道,之前的初代模型 CLASI 虽然解决了文本同传的时延与专业性问题,可它不支持语音输出。而这次的 2.0 版本,实现了质的飞跃。

它首次实现了 “边听边说” 的语音到语音同传,采用双通路语音理解与生成架构,减少中间环节,处理效率和翻译准确率双双提升。在中英互译任务里,已经达到业界最优水平。​

实测中,它的语音翻译延迟能低至 2 到 3 秒,比传统机器同传系统平均减少超 60% 等待时间,真正做到 “边听边说”。为了让翻译更智能,延迟进一步压缩,团队引入强化学习机制,设计双重奖励机制,经过训练优化,长文本中译英任务里,语音输出延迟从 3.90 秒降至 2.37 秒,翻译质量得分也从 75.1 提升到 79.5 ,还能自适应调整节奏。​

更厉害的是,它有 0 样本声音复刻能力,实时采样对话语音,就能用原声输出目标语种译文,在多轮语音评测中表现突出。专业评测验证,它的翻译准确率达 74.8 分,译音质量得分 66.3,远超同类系统。

该系统现在通过火山引擎开放试用(模型叫“Doubao-同声传译2.0”),据说8月底还会集成到Ola Friend耳机里。目前只支持中英互译,但想想这个框架的潜力,以后扩展更多语言应该不是问题。


虽然目前只支持中英互译,但这已经是 AI 同传领域的重大突破了,感觉未来语言交流的隔阂真要被彻底打破了!

收藏
回复
举报
回复
相关推荐