语音实时变文字 「搜狗听写」解决记者作家文字整理难题

企业动态

[[199729]]

 AI的“黄金时代”已来!那离我们最近的AI是什么呢?地图里的语音入口,机器翻译、拍照识图、无人超市,还是最近大热的智能音箱,比如正式开售的可语音购物的xx精灵。但这些真是能解决痛点的AI吗?

近日,在AI领域赢得先机并明确将赴美上市的搜狗,推出了一款小众的免费产品——“搜狗听写”,目的是为了解决会议、采访、写作等场景下长语音内容转写难,可以将语音实时转变成文字,并能标注重点、边写边改进行文字编辑。

“听写”和“转写”为文字工作者减负

采访一小时,整理录音三小时,写稿两小时……这是机器人圈记者的工作常态,相信也是大量同行的日常,而且除了记者编辑,包括职业写作者、会议记录整理者在内的不少文字工作从业人员都有相似遭遇。

当然,“人肉”速记能够解决部分难题,但一有专业性的门槛,有些速记记录的术语实在不忍多看;二是时间上需要排期,费用上也需要考虑,并不是所有的“扒速记”工作都能如愿“转包”出去。当然,市面上也有类似的工具,提供付费的转写服务,只是准确率仍差强人意。

再看“搜狗听见”这款免费的APP,确实是击中了部分人的需求。从功能上看,提供包括“听写”和“转写”在内的两种模式:“听写”模式可在录音的同时给出实时识别结果;“转写”模式则可在离线状态下录音,录音完成后一次性获取文字结果。

它还提供边听边改(保存录音后,可以边听录音边修改文字)、根据语义自动添加标点、支持文本/语音标重点、多客户端同步、信息分享等功能,并且在人的说话音量低至30分贝时,依然可以识别。

值得一提的是它的“大杀器”功能,可以根据记者、作家、自媒体等文字工作者的需要,连接搜狗输入法的个人词库,引入个性化词汇,比如机器人圈的昵称“圈圈”估计就属于独门。

此外,“搜狗听写”还将推出Windows版,专注大会场景的实时速记。

“喂”数据才能更强大

对于有着强大需求的机器人圈记者,在现场已经迫不及待的试用了一下产品。

记事写作比访谈录音呈现出来的准确性更高

对此,机器人圈记者也采访了搜狗公司语音交互技术中心总经理王砚峰,他表示所有的搜狗语音类产品背后都是知音引擎,不过,一般面向具体的场景会有优化,有专门的语音模型。在演讲、聊天的场景下,和车载、会议以及手机近场说话的语音模型都是不尽相同的。

搜狗语音交互技术中心技术总监陈伟还介绍,搜狗听写使用了搜狗知音引擎的长时语音转写技术,从立项到现在,错误率已经下降30%。在声学模型方面,采用了端到端深度神经网络技术Deep LC-CLDNN+CTC技术,转写模式则使用了Deep CNN+CTC的方式,语言模型基于T级海量输入法文本数据使用神经网络进行建模。

此外,影响准确度的还有硬件降噪,手机的降噪能力是比较弱的,尤其手机上在远场的识别率不高,原因就在硬件上手机并没有面向远场识别的麦克风阵列。

还有一个重要的原因是数据的不足,“喂”数据训练模型提高准确度已经是产业界公开的秘密,实时语料数据也将成为这一领域的真正“壁垒”,所以希望准确度提高,也离不开每个用户的支持。

“自然交互+知识计算”的技术路线图

当语音领域的队友们都在“刷音箱”,为什么搜狗却做了一款“小众”的转写APP呢?稍微回顾一下,搜狗在语言领域的布局。在2016年6月的搜狗输入法十周年上,搜狗CEO王小川就提出了将人工智能定位搜狗输入法的下一阶段战略发展的新方向,搜狗CTO杨洪涛则***透露了搜狗输入法的快速分享、聪明回复和妙笔修饰等目前正在研发的三个能够增强用户表达能力的人工智能新技术;而在7月的奇点创新者峰会上,王小川更是直接邀请一名现场观众上台直接演示完全通过自然语音来发送一段短信息。

2016年8,搜狗知音引擎发布,正式确立自然交互+知识计算的重点,将智能语音视为入口,并与场景相结合。当互联网公司和提供AI技术服务的公司进入了同一赛道,他们的“占位”方式还是略有差异。

在不久前,搜狗CEO王小川在给员工的内部信件中写到:搜狗是为语言理解而生的,除了搜索引擎对语言理解有无尽的追求,搜狗更有市场份额绝对领先的输入法产品,也专注在自然语言的计算与处理。正因为有输入法和搜索,搜狗天然具备了啃这块骨头的能力。搜狗将基于对自然语言的交互和计算,将搜索升级到问答系统,将输入法升级到对话系统,并通过翻译将中文世界与全世界连接。

其实更通俗的理解是,作为一家带有AI基因的互联网公司,搜狗并不认为技术是能直接变现的,用户积累、硬件落地才是更合理的方式。如果说,“搜狗听写”是一个小创新的话,我们期待在人工智能领域重大的创新早日到来。

责任编辑:Jane 来源: 未知
相关推荐

2017-09-06 10:51:22

Facebook

2015-03-26 14:06:30

搜狗手机输入法颜文字

2019-06-24 09:30:00

开源技术 趋势

2019-08-29 08:38:14

搜狗录音笔AI

2013-04-12 10:05:49

HTML5WebSocket

2022-02-05 08:20:25

DeepSpeech开源软件开发

2019-12-13 09:48:48

开源技术 软件

2022-01-23 08:26:57

微信暂停语音朗读文字

2014-12-30 09:35:16

文字转语音

2023-12-18 15:00:00

模型数据

2022-11-06 09:55:59

2010-08-24 13:25:16

DIV+CSS

2010-09-14 10:34:17

DIV CSS

2012-07-27 15:45:28

Mountain LiMacOS

2022-11-06 16:29:34

2021-01-08 10:00:53

鸿蒙讯飞平台语音控制

2018-03-07 22:16:31

游戏语音

2017-12-22 21:42:24

游戏语音游戏实时语音

2011-08-10 18:13:01

Cocoa文字字符串

2014-11-13 11:19:55

语音输入搜狗语音
点赞
收藏

51CTO技术栈公众号