大数据和机器翻译如何结合起来对抗冠状病毒

大数据
大数据和机器翻译可以结合在一起对抗冠状病毒疫情,人们需要了解这两种技术如何提供帮助以及如何发挥作用。

大数据和机器翻译可以结合在一起对抗冠状病毒疫情,人们需要了解这两种技术如何提供帮助以及如何发挥作用。

历史上很少比冠状病毒疫情更能让大众意识到大数据的重要性。从世界各地收集的统计数据正在推动公共政策并塑造私人行为。以下将重点关注疫情的语言学层面,以便向决策者、医疗保健提供者以及公众传达基本信息。面临的挑战是如何跨越语言边界交流快速变化的数据,以使基本信息不会在翻译中丢失。但是在寻找用户的过程中,大数据的使用也存在更多争议。

[[327791]]

行业领先组织使用大数据进行机器翻译

考虑到问题的严重性,翻译服务越来越依赖于机器翻译的效率和吞吐量。根本就没有足够的人工翻译和口译员。令人高兴的是,由于神经网络方法在过去十年的应用,机器翻译的质量得到了提高,主要是在这一领域发展的最大的科技公司,统称为FAMGA(Facebook、苹果、微软、谷歌和亚马逊)。这些公司都以自己的方式依靠大数据在领先的语言优势上展开竞争。然而,他们不是在处理数字,而是在处理文字。

跟踪冠状病毒蔓延的社交媒体翻译和隐私挑战

Facebook公司利用大规模的样本反向翻译(一种基于神经机器翻译的大数据技术),在2019年WMT竞赛的多个类别中均获得第一名,需要大量的双语培训数据,也就是可供参考翻译的句子。双语数据很难获得,因此Facebook公司团队使用反向翻译作为解决方法。最终,该团队使用了大约100亿个单词的额外数据来完成其任务。Facebook公司利用其20亿个左右用户的评论和帖子作为训练材料,并具有无与伦比的内容访问权限。

在语言竞赛中,出于实验目的使用发布的语言是一回事,而在新冠病毒等敏感的健康问题上利用用户提供的信息是另一回事。正如Bruegel研究所的J.Scott Marcus所观察到的那样,用户以各种方式“自愿”提供信息:在社交媒体上的帖子中,在他们使用移动服务和提供位置数据时在寻找健康信息。Marcus表示,大数据已用于对抗新冠病毒的战略规划,用于跟踪潜在感染者,并为感染者和公众提供指导、建议和信息。

翻译与自愿收集的数据有关的隐私问题

很多人可能不知道提供“自愿”数据将被用来追踪或暴露其行程的追踪。不仅仅是一个国家,先从中国开始,然后是韩国、日本、以色列等其他国家,已经明确使用了部分或全部这些信息。通常,高科技公司与各国政府合作以提供其数据,尽管欧洲的通用数据保护条例等法规等隐私保护措施阻止了此类使用。

病毒跟踪计划使用机器翻译实现“标准化”通信,并使公共卫生官员可以首选的语言对其进行访问。例如,在以色列,阿拉伯语的社交媒体通信通过机器翻译技术自动翻译为希伯来语,其目的是寻找潜在的病毒携带者。

大规模机器翻译和口译的公共用途

机器翻译大规模应用的另一个例子是在国际机场对乘客进行筛选。除了热成像设备和手持测温度仪之外,检测人员还使用手持语音翻译器向到达的乘客询问他们的旅行史或医疗症状。

同样的考虑也适用于向使用其他语言的公众提供信息。提供有关冠状病毒的最新信息是移民的一个问题。据美国之音报道,荷兰的志愿者设立了一个健康服务台,为不会说荷兰语的新移民帮助。在澳大利亚在其边境采用了一个大规模的翻译项目。笔译和口译服务是澳大利亚移民和边境保护部为同时使用人工翻译和机器翻译的非英语使用者提供的服务。

美国医院的需求量很大。《纽约时报》于2020年4月报道了美国的西班牙裔冠状病毒患者所遭受的巨大苦难,其所遭受的痛苦不成比例,约占纽约患病人数的34%。为了满足这种需求,纽约的医院越来越多地转向视频远程口译,医疗保健提供者可以在需要时提供口译服务。

在冠状病毒疫情爆发之前,在思科公司的支持下,非营利性无国界翻译公司(TWB)推出了一项名为Gamayun的创新机器翻译计划,旨在帮助那些少数民族语言的人员。TWB计划的负责人Grace Tang说:“少数族裔语言的人无法获得重要的救生信息。”思科公司发言人表示,基于人工智能和大数据技术的语音翻译和文本翻译工具将在5年内帮助该计划扩展至10种少数族裔语言。

大数据和机器翻译项目的风险与陷阱

结合大数据和机器翻译的项目中最著名的案例是Project Baseline,这是由Alphabet公司支持的Verily发起的。2020年3月,美国总统特朗普声称谷歌公司支持一项全国性的计划,利用双语筛选问题追踪新型冠状病毒。

Vital Software公司的新冠病毒症状检查器也引发了类似的争议,该检查器在俄勒冈州可以翻译成15种语言用。在启动基于社区的项目时,但在选定的州,其规模仍在县级,而不是国家一级。值得称赞的是,考虑到从个人身上收集的大量敏感信息,该项目认真对待数据隐私问题。

在新冠病毒疫情期间,将大数据用于机器翻译和其他目的的底线是,它是在巨大的压力下动态完成的,这几乎总是会导致偷工减料和高期望值,但这并不总是能够满足。Facebook公司在WMT的应用报告中表示,其收集数据是嘈杂且次优。希望在疫情期间,将大数据和机器语言方法相结合的努力也能取得成功,为对抗疫情提供帮助。

 

责任编辑:赵宁宁 来源: 360机房
相关推荐

2023-05-26 00:28:33

PandasAIChatGPTOpenAI

2023-07-31 00:14:28

2022-08-09 11:14:45

首席信息官企业

2020-09-23 10:36:32

ASESD-WAN安全访问服务边缘

2023-08-07 16:26:54

LinuxNautilus文件管理器

2020-09-23 10:36:38

安全

2020-08-03 23:16:51

物联网冠状病毒IOT

2019-12-19 14:07:33

IT运营CIO安全

2021-10-13 18:59:42

AI

2021-11-01 17:14:28

物联网区块链技术

2017-08-04 10:33:52

人工智能神经科学Deepmind

2017-08-07 11:15:34

人工智能神经科学神经网络

2023-07-18 11:23:55

2021-02-18 21:51:57

大数据冠状病毒医疗

2012-05-09 11:47:15

HTML5游戏开发Easel.js

2020-06-12 17:36:09

机器人疫情5G

2020-02-06 12:37:59

新型冠状病毒勒索病毒病毒

2021-04-25 15:19:19

数据分析商业智能大数据

2020-10-26 10:49:31

数据中心

2020-04-17 10:13:59

数据中心冠状病毒清洁
点赞
收藏

51CTO技术栈公众号