社区编辑申请
注册/登录
大数据让我们接受不准确的存在?事实证明是这样
大数据
传统的样本分析师们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现。

在收集样本的时候,统计学家会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。

但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当我们收集所有数据的时候,这就行不通了。

不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致性不太现实。就算是不让人们进行沟通争吵,也不能解决这个问题。

大数据时代要求我们重新审视精确性的优劣。如果将传统的思维模式运用于数字化、网络化的21世纪,就会错过重要的信息。执迷于精确性是信息缺乏时代和模拟时代的产物。

在那个信息贫乏的时代,任意一个数据点的测量情况都对结果至关重要。所以,我们需要确保每个数据的精确性,才不会导致分析结果的偏差。

有时候,当我们掌握了大量新型数据时,精确性就不那么重要了,我们同样可以掌握事情的发展趋势。

大数据不仅让我们不再期待精确性,也让我们无法实现精确性。然而,除了一开始会与我们的直觉相矛盾之外,接受数据的不精确和不完美,我们反而能够更好地进行预测,也能够更好地理解这个世界。

值得注意的是,错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。如果说哪天技术变得完美无缺了,不精确的问题也就不复存在了。

错误并不是大数据固有的特性,而是一个亟需我们去处理的现实问题,并且有可能长期存在。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常我们不会再花大力气去提升数据的精确性。

这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据给我们带来的利益,让我们能够接受不精确的存在了。


责任编辑:华轩 来源: 今日头条
相关推荐

2022-05-19 15:36:57

大数据

2022-03-24 23:06:25

大数据技术应用

2022-03-26 10:37:31

政务大数据数据质量大数据应用

2022-05-26 15:04:46

大数据建筑能源管理

2022-05-24 15:29:48

人工智能大数据心理测量

2022-03-21 14:30:41

云计算大数据网络安全

2022-02-09 21:53:13

2022-03-03 21:45:58

大数据大数据技术

2022-04-02 09:32:06

大数据数据智能企业

2022-06-17 18:32:54

开源大数据数据调度

2022-05-19 19:26:33

区块链大数据数据分析

2020-12-21 14:42:42

2017-07-11 06:07:59

金融大数据互联网

2022-06-10 07:45:09

CentOS国产操作系统

2022-03-08 13:14:32

数据湖大数据

2015-07-22 11:07:08

互联网+金融大数据

2021-02-04 15:10:13

云计算物联网大数据

2022-06-13 08:00:00

数据湖数据仓库大数据

2016-06-02 10:17:58

大数据架构业务监控

2022-03-29 14:49:14

大数据数据分析

同话题下的热门内容

如何设计数据可视化平台七个好用常见的大数据分析模型“2022大数据十大关键词”发布:数据中台、数据分类分级等上榜Apache Doris刚刚 "毕业":这个SQL数据仓库有什么不一样?为什么大热的数据可视化行业,我不建议轻易入行?大数据项目可能出错的五种方式Python进行数据可视化,你会用什么库来做呢?2022大数据十大关键词,重磅发布!

编辑推荐

使用Pandas&NumPy进行数据清洗的6大常用方法2018年7款最佳免费数据分析工具pyspark访问hive数据实战【漫谈数据仓库】 如何优雅地设计数据分层人工智能、大数据与深度学习之间的关系和差异
我收藏的内容
点赞
收藏

51CTO技术栈公众号