更好的机器学习需要更好的数据标注

人工智能 机器学习
金钱买不到幸福,它绝对不能买到你的爱情。还有传言说,钱也买不到好的标注数据,这些数据用以训练特定的AI应用。——来自一个被困扰的人工智能开发者。

 有人在苹果花了数亿美元收集标签数据,但依然没有好的结果。人们意识到AI非常强大。但为了实现它,必须获得大量的训练数据。

[[441112]]

看到这一需求,许多专业标注公司诞生了。例如Datasaur,这是一个自动化数据标注的软件。当然,数据标注首先需要以人工的方式开始,特别是在人工智能项目的开始阶段,到了项目的中期或末期,机器学习本身可以用于自动标记数据,也可以生成合成数据。

 

Datasaur软件的主要目标是简化人工数据标注的操作,并引导他们以最低的成本创建更高质量的训练数据。由于它的目标是那些需要整天标记数据的高级用户,因此创建了功能键来加速标注过程,以及适合专用数据标注系统的其他功能。

不过在这个过程中,Datasaur也有了其他几个目标,包括消除偏见。还提供了项目管理能力,以清楚地阐明标签指南,以确保随着时间的推移,标签标准继续得到保持。

数据标注的主观性是使这门学科充满陷阱的原因之一。

例如,想出一种方法,自动给文章贴上适合或不适合家庭的标签。通常可以参考电影分级制度,类似PG、PG13、R级。自然认为这将是一个非常简单的任务。然后事实证明,科技公司认为合适的做法与电影行业认为合适的做法有很大不同。还有很多灰色地带的实例,对于什么是合适的,什么是不合适的,不同的社会观点将会非常不同。

 

更好的机器学习需要更好的数据标注

 

解决这类问题没有捷径可走。但是,有一些方法可以帮助公司将这些业务流程自动化,包括提供一个用于回答这些数据标注问题的决策谱系。这就是创建Datasaur软件的原因。

你不会让你的团队为你的设计师创建一个Photoshop。只要买现成的Photoshop就行了。当你只需要做数据标注,我们也可以找一家这样专业的公司。

 

更好的机器学习需要更好的数据标注

 

起初,许多客户认为计算机视觉是最热门的AI技术。但最近,NLP用例非常热门,特别是那些依赖于大型模型的用例,如BERT和GPT-3。因此Datasaur产品开始吸引注意力,每周被用于给100万条数据贴标签,包含Netflix、Zoom和Heroku等知名公司都在使用。

Datasaur也被专业数据标注机构使用,例如iMerit。在世界各地拥有5000名员工,iMerit已成长为数据标签行业的强大力量。该公司拥有100个客户,其中包括许多家喻户晓的品牌,这些客户利用其数据标注网络,让深度学习模型与高质量的标注数据保持一致。

数据标签的主观性使得它不是单纯的一项交易。

通常情况下,需要坐下来,弄清楚数据在哪里,需要什么。它不仅仅是工具、人员或过程。这是三者的结合。

上下文对于数据标注过程绝对是至关重要的。这大概是因为机器对上下文的理解能力很差。也可能是因为AI用例在不断变化。不管是什么原因,这种需求是显而易见的。

分享一个卡车上施工工人的例子,可以证明上下文对于开发高质量的培训数据是多么重要。想象一下,有一个工人坐在卡车上,每到一个维修路段,就要下车干活,然后又回到卡车上。所以数据标签的问题是:工人是行人吗?他是卡车的一部分吗?还是说他是第三种人?

 

如果你在计算车辆,你就不会在意工人上下车。你只会对工程车感兴趣;但如果你试图操纵其他东西(比如自动驾驶或交通流量控制),避免撞到垃圾工,垃圾工的动作将会引起你极大的兴趣;如果你在寻找可疑的行为,你会想把垃圾工排除在一系列类似的行为之外。

但很明显,工人有不同的存在状态,取决于人工智能应用的视角。对于数据标注来说,证明一个事实:在不同的时间,一条数据可以有不同的标注。有的时候,没有单一的答案。

数据标注过程的细致性对于提高数据质量至关重要,这直接影响机器学习模型的预测推理质量。数据可以让预测准确率达到60%到70%,也可以让预测准确率达到95%。

根据用例的不同,准确性是至关重要的。假如正在构建一个模型从视频中来识别偷东西的行为,一个错误的否定(没有发现盗窃行为)和一个错误的肯定(指控无辜的顾客)之间后果有很大的区别。

 

责任编辑:华轩 来源: 今日头条
相关推荐

2018-07-23 15:35:17

机器学习特征工程技能数据科学

2017-09-08 13:35:48

云优先策略互联网

2010-01-15 16:25:48

学习C++

2010-01-15 19:28:59

C++

2021-04-13 09:25:21

机器学习人工智能计算机

2010-02-06 10:54:38

Android进程

2023-08-17 14:22:17

深度学习机器学习

2012-01-05 10:13:54

云计算SLA

2018-05-30 14:49:51

编程语言API语法

2015-08-03 10:41:52

大数据

2010-01-28 15:31:34

学习C++语言

2010-01-26 10:01:17

学习C++

2020-07-16 11:23:54

应用程序数据安全

2020-10-27 06:36:12

5G网络攻击威胁情报

2012-11-02 13:44:57

大数据语音搜索Google

2010-03-15 14:47:19

Python内置对象

2020-10-09 15:35:45

机器学习深度学习算法

2009-04-24 15:31:12

VoIP网络测试

2021-07-30 16:20:57

在家办公网络监控工具

2020-08-17 17:10:54

机器学习聚类开发
点赞
收藏

51CTO技术栈公众号