社区编辑申请
注册/登录
数据是新石油,提炼新石油要遵循四个原则
大数据
我们需要有一个数据实践--一套普遍理解和可持续执行的数据管理原则。为了创建一个良好的数据实践并避免发生与数据相关的火灾,组织应该注意以下四个原则。

数据是新石油的概念已经存在了很长时间。一般来说,这要归功于数学家Clive Humby:

数据是新的石油。像石油一样,数据是有价值的,但石油如果没有经过提炼,它就不能真正被使用。它必须被改变成气体、塑料、化学品等,以创造一个有价值的实体,推动有利可图的活动。因此,必须对数据进行分解、分析,使其具有价值。

数据是新的石油,因为数据可以被用来获得洞察。根据公司的业务,洞察可以提高客户留存率、提升销售、产生新的收入模式、广告等等。如果数据是新的石油,洞察就是新的财富。

由于计算、物联网、机器生成的数据等方面的进步,数据量现在正在爆炸式增长。因此,我们被淹没在数据石油中。我们如何防止石油火灾,或与数据有关的火灾,更准确地说,如何获得良好的洞察?

仅仅拥有数据是不够的。我们需要有一个数据实践--一套普遍理解和可持续执行的数据管理原则。为了创建一个良好的数据实践并避免发生与数据相关的火灾,组织应该注意以下四个原则:

数据来源(我的数据是从哪里来的?)

数据比比皆是,但质量参差不齐。一些数据是肮脏的(充满了错误和遗漏)。有些数据是完全错误的,还有一些是虚构的。如果依赖公共领域的数据,这一点尤其要注意。一些数据集包含偏见--如果在人工智能中使用,会给企业带来重大风险。正如麻省理工学院最近的一个项目中所概述的,有些只是包含错误。要想知道数据所产生的洞察是否有价值,甚至是否安全,对数据的来源有一个扎实的了解是至关重要的。

数据隐私(我被允许用这些数据做什么?)

随着人工智能变得越来越普遍--城市、州和国家正在实施关于如何使用消费者信息的新法律,以及消费者在使用其数据方面有哪些权利。主要的例子是美国加州的CCPA和欧盟GDPR中的 “解释权”条款。随着此类法律的增多,人类原始数据的用户需要特别注意如何使用和保护这些数据。

数据保护(如何确保我不会丢失数据?)

数据隐私是数据保护的一种形式--确保数据访问受到控制以保护隐私。数据保护的另一个重要方面是确保数据对需要它的人来说仍然可用。数据对公司越重要,数据的丢失对业务的影响就越大(比如,皮克斯因数据丢失事件而差点失去《玩具总动员2》)。

数据准备(如何从原始数据变成有用的数据?)

正如前文所述,原始数据,就像原始石油一样,并不是非常有用。要想利用数据获得洞察,就需要对其进行提炼(当以专注于人工智能的方式进行时,这一过程被称为数据准备、数据清洗或特征工程)。拥有一个好的(可复用的)数据准备策略是关键。数据准备可以使从数据中产生的洞察力的质量或从数据中训练的AI的质量有明显的不同。

以上四项原则共同构成了一个良好的数据实践的核心:

  • 出处。知道你的数据从哪里来
  • 隐私。知道数据来自谁,以及使用数据时应遵循哪些法律
  • 保护。不要丢失数据
  • 准备。知道如何提炼数据,并记住你是如何提炼数据的,以便可以一次又一次地持续这样做。

随着商业模式的发展,越来越多的公司可能会发现数据是他们最大的资产,上述原则有助于保护和发展这一资产。

责任编辑:赵宁宁 来源: ITPUB
相关推荐

2021-07-12 11:28:56

2016-10-19 15:29:50

大数据 峰会

2020-02-10 22:50:11

工业物联网IIOT预测性维护

2020-10-09 08:09:25

大数据 人工智能 黑客

2021-01-21 22:23:57

大数据石油智慧交通

2021-01-21 14:33:38

大数据大数据应用

2016-10-17 16:05:13

2016-03-24 17:09:14

2017-12-05 09:32:00

数据分析对比分析常规分析

2015-08-26 14:15:12

数据挖掘

2019-12-04 15:02:22

数据科学家故事数据分析

2020-12-10 10:32:33

区块链比特币数字货币

2020-01-07 09:15:03

2017-08-31 09:19:50

同话题下的热门内容

网易数帆开源Arctic:推动湖仓一体落地,驱动业务价值腾讯大数据总体架构图,首次对外公开!数据开发流程规范及数据监控技术管理如何应对混合工作模式转变Arctic开源!网易数帆X华泰证券,推动湖仓一体落地数据分析,如何诊断业务问题2023年及以后工作的十大数据科学独角兽公司中国城市财政收入半年报:上海减收近千亿,长春降幅超四成

编辑推荐

使用Pandas&NumPy进行数据清洗的6大常用方法2018年7款最佳免费数据分析工具pyspark访问hive数据实战【漫谈数据仓库】 如何优雅地设计数据分层人工智能、大数据与深度学习之间的关系和差异
我收藏的内容
点赞
收藏

51CTO技术栈公众号