知道为啥失败么?87%的机器学习项目都是这么栽了的……

人工智能 机器学习
机器学习领域的发展潜力巨大,但我们对它了解得还不够。根据Garner的预测:“2020年,有80%的人工智能项目还很神秘”,Transform 2019 of Venture Beat预测有87%的AI项目将永远不会投入生产。

本文转载自公众号“读芯术”(ID:AI_Discovery)

 机器学习领域的发展潜力巨大,但我们对它了解得还不够。根据Garner的预测:“2020年,有80%的人工智能项目还很神秘”,Transform 2019 of Venture Beat预测有87%的AI项目将永远不会投入生产。

为什么会这样呢?为什么这么多项目失败呢?

· 缺乏专业知识

首先是因为大多数人对此技术依然很陌生,大多数公司组织仍不熟悉软件工具和所需的硬件。

如今,似乎只要从事过数据分析或软件开发工作,完成了一些示例数据科学项目的人,在上过在线短期课程后都自诩数据科学家。事实上,大多数的机器学习和人工智能项目,尤其在定义成功标准以及最终部署和持续监控模型时,都需要经验更丰富的数据科学家。

· 数据科学与传统软件开发之间的脱节

数据科学与传统软件开发之间的脱节是另一个主要因素,传统的软件开发往往更便于预测和测量。

· 数据科学依然是科研与工程的结合体

数据科学研究通过多次迭代和试验向前发展。有时,由于选择的度量标准无法带动用户行为,因此整个项目将不得不从部署阶段重返计划阶段。

传统项目或许不能和数据科学项目传达一样的结果。对于那些在传统软件开发项目的每个任务周期结尾时能得到清晰交付结果的领导者而言,这可能令他们感到疑惑。

· 数据的质量与规模

众所周知,人工智能系统的数据基础越广,产生的预测就越好。除了数据量增多的直接影响外,随着数据规模的增加,还会面临许多新的挑战。

在许多情况下必须合并来自多方的数据。这时,我们就会意识到它们并不是多次同步的。问题也随之而来,有时会合并不应该被合并的数据,这将导致有相同名称的数据点却有不同的含义。错误的数据产生的结果不仅没有参考意义,还会产生误导性。

 

知道为啥失败么?87%的机器学习项目都是这么栽了的……

 

· 数据标注

据《麻省理工学院斯隆管理评论》称,另一个使许多机器学习项目停滞的原因是数据标注的不可用。

76%的人通过对训练数据进行标注和注释来解决这一问题,而63%的人甚至尝试构建自己的数据标注和自动化注释技术。这意味着大量数据科学家会在数据标记过程中无法运用自己的专业知识,这是有效执行人工智能项目所面临的主要挑战。

这就是许多公司将标注任务外包给其他公司的原因。但是,如果标注任务需要全面的专业领域知识,任务外包不会是好的解决方法。如果公司想保持数据集的质量和一致性,必须对数据标注员进行正式和标准化培训。

如果要标注的数据很复杂,另一个选择是开发自己的数据标注工具。但是这通常比机器学习任务本身需要更多的工程开销。

· 封闭化组织

数据是机器学习项目中最重要的部分。在大多数组织中,这些数据将有不同的安全性约束,并以结构化、非结构化、视频文件、音频文件、文本和图像等多种形式储存在不同位置。

将这些数据以不同的格式放在不同的位置本身是一个挑战。但是,在组织处于封闭状态、负责人不相互合作时,团队就会面临加倍挑战。

· 缺乏合作交流

另一个主要挑战是数据科学家、数据工程师、数据管理员、商务智能专家、开发运营(DevOps)和工程等不同团队之间缺乏协作。这对于从事数据科学工程方案的团队尤其重要,他们的工作方式和使用的技术之间存在很多差异。

工程团队将完成机器学习模型并将其投入生产。因此,他们之间需要有恰当的理解和高效的协作。

· 技术上不可行的项目

由于机器学习项目往往成本高昂,因此大多数企业倾向于以远大的“登月计划”为目标,试图以此完全改变公司或产品并为企业带来超额回报或投资。这样的项目会使数据科学团队无法突破极限,并且永远无法完成这样的项目。最终,企业领导者将对项目失去信心并停止投资。

企业最好将精力集中在单个可实现项目上,在力所能及的范围内针对分散的业务制定阶段性的小目标。

· 技术和业务团队之间的协调问题

在机器学习项目启动时,业务团队和数据科学团队之间没有明确期望、目标和成功标准。这样的项目将永远停留在研究阶段,因为他们不清楚自己的目标,便永远不知道自己是否正在取得进展。

数据科学团队将主要专注于准确性,而业务团队却对财务收益或业务洞察力等指标更感兴趣。最终业务团队不会接受数据科学团队的成果。

 

知道为啥失败么?87%的机器学习项目都是这么栽了的……

 

· 缺乏数据策略

根据麻省理工学院斯隆管理评论,只有50%的员工人数超过10万的大型企业最有可能采用数据策略。在开始机器学习项目之前制定可靠的数据策略至关重要。

你需要对以下内容有清晰的了解,这是数据策略的一部分:

  • 公司中的总数据
  • 项目真正需要多少数据
  • 项目涉及到的员工是否有权查看这些数据
  • 如何将来源不同的数据汇总在一起的具体策略
  • 如何清理和转换这些数据

大多数公司开始时都没有计划,或者根本没有想到自己没有数据。

· 缺乏领导支持

只要投入金钱和技术,问题就能迎刃而解。这是大众常见的误解。领导者可能没有提供正确的支持来确保已经达到成功所需的条件。有时业务主管并不看好数据科学家开发的模型。

这或许是由于业务负责人缺乏对人工智能的理解以及数据科学家无法将模型的商业价值准确传达给领导者。领导者需要了解机器学习的工作原理以及人工智能对企业的真正意义。

以上就是机器学习项目“九死一生”的原因所在。

 

责任编辑:华轩 来源: 读芯术
相关推荐

2020-11-05 11:08:11

人工智能

2017-12-11 15:04:58

404错误HTTP代码

2018-10-28 15:40:23

Python编程语言

2017-07-15 16:06:09

外卖深度学习O2O

2022-09-15 18:21:03

JVMKafka

2023-09-08 08:35:42

层叠样式表CSS

2015-11-11 10:41:49

1600亿AWS云计算

2018-08-14 11:02:55

机器学习项目失败

2020-06-03 08:15:50

IO软件

2023-06-26 08:20:02

openapi格式注解

2014-01-22 14:27:25

科技创业者人品

2021-06-09 10:10:20

代码内存编程语言

2020-05-19 08:46:22

框架工具工程师

2014-08-26 11:03:54

2010-09-14 11:29:43

谷歌

2019-08-16 16:11:01

消息队列MQ解耦

2015-08-13 10:02:06

苹果手表可穿戴设备

2021-03-24 08:44:11

代码内存消耗语言

2014-12-23 14:57:42

开源项目机器学习

2023-11-02 08:32:11

机器学习人工智能
点赞
收藏

51CTO技术栈公众号