罗永浩高调站台的讯飞是传说 关于语音输入的四个误区

商务办公
当科学家进行语音识别研究之初,最初是陷入了计算机需要模拟人脑的误区。直到20世纪70年代,在IBM华生实验室,贾里尼克的团队花了4年的时间,开发了一个基于统计法和数据的语音识别系统后,语音识别有了巨大飞跃,识别率迅速提高到90%以上

   看相声还是看手机?当罗永浩“意外”抖出了某语音输入的包袱后。一把刷屏好手之称的罗永浩这次是回归广告界了吗?或许是。那么,因直播惊艳而走火的“老干部”科大讯飞真如老罗展示“上了天”吗?

  事实上,在语音识别这个几近成熟的市场内,技术和产品的胜负早已有定夺。要了解语音输入和语音识别,应该先走出四大误区。

  误区一:语音识别是个新领域吗?

  1950年,计算机之父图灵在《思想》杂志上发表了一篇题为《计算的机器和智能》的论文。在这篇文章中图灵提出了影响至今的图灵测试,后来,计算机科学家们认为,如果计算机实现了语音识别、机器翻译、文本的自动摘要或者写作、战胜人类的国际象棋冠军、自动回答问题中的一件事情,就可以认为它有图灵所说的那种智能,所以语音识别是科学家们从上个世纪50年代就“庖丁解牛”的领域。

  当科学家进行语音识别研究之初,最初是陷入了计算机需要模拟人脑的误区。直到20世纪70年代,在IBM华生实验室,贾里尼克的团队花了4年的时间,开发了一个基于统计法和数据的语音识别系统后,语音识别有了巨大飞跃,识别率迅速提高到90%以上,同时语音识别的规模从几百词上升到两万多词。从此,语音识别就从实验室走向实际应用了。

  误区二:讯飞是个toC的公司吗?

  当然,从用户群来说,哪个产品的用户数多,则代表着该产品被用户的认可度更高。

  事实上,科大讯飞一直是个2B(面向企业用户)服务的公司,将自己的人工智能服务授权给其他企业是主要的商业模式。虽然科大讯飞在最近几年也开始发力2C(面向消费者)的产品,比如智能音箱、录音宝、录音笔等硬件,以及锤子发布会火了的“语音识别”,但这些产品在市场上的占有率并不算高。

  那么,到底什么语音输入法是2C用户为主,被用户使用次数最多、认可度更高的呢?数据会说话。答案是历经五年发展的搜狗语音输入。据了解,截止目前,搜狗输入法总用户量已经超过5亿,其中有相当部分的用户会用到语音识别功能,每天拥有超过1.9亿次的语音请求,是中国语音输入量***的应用工具。

  误区三:没数据就能做好语音输入吗?

  “我的办公室里每开除一个语言学家,我的语音识别系统错误率就能降低一个百分点!”当大神贾里尼克说出这句话的时候,他就意识到语音识别和语言语法关系不大,而是和语料数据息息相关。

  要提升语音输入用户的产品体验,必然需要积累大量的数据。搜狗语音识别背后就是由搜狗搜索引擎大数据支持,加之积累了十年的搜狗输入法云词库数据,这样才提升了用户的使用体验,从大数据的角度来看,科大讯飞在短时间是难以赶超搜狗的。

  搜狗和科大讯飞***的不同是,搜狗是一家互联网企业,其互联网的产品布局更多,服务更全面,语音识别不仅能用于搜狗语音输入法,还能用于搜狗搜索、搜狗地图,一方面采集更广泛数据,另一方也将用户体验提升至一个更高的水平。

  误区四:语音识别上屏是初亮相

  “天啦噜,老罗一边演讲,一边字幕就上墙了!太神奇了!”能有类似感慨的不能不说是语音识别界的“小白”。

  今年7月,搜狗公司CEO王小川在极客公园“奇点·创新者峰会”,就首秀了演讲内容在现场实时生成滚动字幕,同步的字幕引起了现场观众极大的兴趣,纷纷起立拍照。在演讲结束后,现场语音识别成果立刻生成了完整的演讲稿,观众通过扫描二维码即可阅读。利用搜狗公司的语音识别技术,王小川的演讲内容显示为文字的准确率已高达97%以上。

  此外,搜狗语音输入的新功能“语音修改”也***展示。用户对着手机说出一段文字后,再通过自然语言的方式将语音识别错误的地方进行修正,赢得了现场热烈的掌声。因为搜狗语音交互引擎“知音”所具备的利用自然语言交互的语音修改能力,搜狗语音不仅要实现“能听会说”,还要求具有“能理解会思考”的能力。

责任编辑:张诚 来源: 51CTO
相关推荐

2014-11-13 11:19:55

语音输入搜狗语音

2013-03-18 13:31:28

2021-12-10 14:54:02

数字化转型金融技术

2011-08-25 18:15:11

Android应用iflyiOS应用

2012-02-03 14:07:43

2023-09-26 06:23:55

OpenAIChatGPT

2021-05-10 09:05:39

AI 数据人工智能

2018-08-23 08:13:20

子弹短信微信老罗

2013-06-05 09:55:34

云音乐丁磊

2012-03-30 10:03:27

HTML 5

2014-01-15 17:53:08

思科ACISDN

2022-07-13 10:41:09

云计算首席信息官

2019-01-22 10:50:52

边缘计算IT网络

2014-11-26 15:23:29

2021-05-11 11:26:18

人工智能自然语言机器人

2023-09-06 16:55:33

JavaScript闭包

2021-09-01 09:12:57

微软WebView2开发

2012-04-04 12:57:37

HTML5

2012-03-30 09:45:07

WEBHTML5

2017-09-06 08:04:49

点赞
收藏

51CTO技术栈公众号