不出声也能命令Siri!清华校友开发「无声语言识别」项链

人工智能 语音识别 新闻
在SpeeChin的加持下,现在的Siri、Alexa等就已经可以识别,而且还支持普通话和英文!

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

这,或许是现在跟Siri交流最潮的方式了——

只需要动动嘴皮子,就能让它under你的control。

没错,就是不需要出任何声音的那种。

这就是来自康奈尔华人团队的最新研究成果 SpeeChin,无声语音识别。

像这样:

在没有声音的情况下,你能猜出来他在说什么吗(文末揭晓答案)

但在SpeeChin的加持下,现在的Siri、Alexa等就已经可以识别,而且还支持普通话和英文!

是有种“此时无声胜似有声”的感觉了。

不说话,怎么控制语音助手?

康奈尔团队研发的SpeeChin,其实是一条神奇的项链

戴上这条项链,就能开启无声语音控制的大门了。

例如对着电脑默念一句“Next”,音乐就会自动切换成下一首歌:

或许你会说一个单词过于简单了,别急,现在就来加大难度:

“Switch to Taylor Swift.”

可见,SpeeChin即便是面对一句完整的话术,也可以做到精准识别。

而这条“无声识别”项链的关键,就在于安装在项链下方的红外摄像机

它可以捕捉到人物颈部和面部皮肤的变形图像,从而进行分析识别工作,确定从“嘴皮子”传达的是什么命令。

而且这条项链不仅能无声识别英文,连中文 (普通话)也能够hold住。

在最初的实验中,有20人参与到了测试中,其中10人讲英文,另外10人说普通话。

研究人员让测试者分别用英文和中文发出数十条指令,包括数字、互动指令、语音辅助指令、标点指令和导航指令。

最后的实验结果,“无声识别”的准确率分别达到了90.5%91.6%

来自康奈尔大学的华人团队

这项研究来自康奈尔大学,一作是Ruidong Zhang。

其中,Cheng Zhang是这项研究的通讯作者。

他是康奈尔大学信息科学系的助理教授,他的研究聚焦在如何获取人体及其周围的信息,以应对各种应用领域中的现实世界挑战,如交互、健康感知和活动识别。

研究的一作Ruidong Zhang,他是Cheng Zhang教授的一名博士生,本科毕业于清华大学。

他的研究兴趣在于人机交互和普适计算(ubiquitous computing),特别是建立新型的可穿戴设备,用来促进互动体验并加深我们对人类行为的理解。

至于为什么他们要做SpeeChin这项工作,据Ruidong Zhang解释:

主要是考虑到在某些特定场合中,人们可能不适合发出声音;还考虑到一些不能说话的人群。

最后,来揭晓一下开头GIF的答案:

你猜对了吗?

责任编辑:张燕妮 来源: 量子位
相关推荐

2020-06-07 15:43:40

人工智能面部识别技术

2023-01-26 14:15:55

识别分割可迁移

2017-12-21 21:02:17

Windows 10Build 17063火狐浏览器

2011-11-04 11:57:46

2019-10-29 09:55:59

人脸识别人工智能亚马逊

2018-12-21 10:14:43

2017-09-15 13:48:58

支付宝

2016-07-12 09:40:30

恶意程序TLS加密恶意流量

2022-10-26 13:27:12

论文

2011-05-06 10:31:54

故障声卡

2009-01-18 09:19:00

DHCPVlANIP

2011-11-04 09:45:43

Siri

2011-11-04 09:52:24

Siri云计算苹果

2021-03-24 14:58:42

数据翻译人工智能

2022-07-11 09:39:49

微软后端服务远程开发

2021-11-11 11:31:54

摆动序列数字

2023-08-02 12:52:02

谷歌模型

2024-01-04 12:47:00

Linux命令工具

2024-01-22 00:01:23

2021-10-09 15:32:11

信息安全技术
点赞
收藏

51CTO技术栈公众号