大数据还是太多信息?

系统
IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!

 

 

我们都知道现在地球上的信息太多,但是怎么多法,没有人知道。

[[72561]]

IBM负责超级计算机研发的Dave Turek给了我们一个答案,根据IBM的估算,人类自有史以来至2003年所创造的信息量为5艾字节(50亿GB),而到了去年,人类每两天就产生了如此多的信息量。据Turek的预测,到明年的时候,我们生成这样规模的信息量只需要10分钟!

这怎么可能?!数据为何滥生到了这种地步?这么说吧,每次你的手机发送其GPS位置,每次你在网上买东西,每次你点击社交网络上的“喜欢”,你就给数字信息的海洋奉献了一个水滴。现在这片海洋大部分已经为此类数据所覆盖。

短信、客户记录、ATM交易、监控摄像……这条清单可以列得很长。我们有一个流行语总结这些东西:“大数据”,尽管这个词难以表述我们所创造的这个怪物的规模。

这是技术超出我们使用能力的一个***例子。在这个例子里,我们还没能跟上自己捕捉信息的能力,所以这段时间管理大师总喜欢说未来属于能善用自己所收集数据的公司,尤其是具备实时利用能力者。

对于企业来说,能够解析自己客户的每一个数字化的蛛丝马迹者必将拥有领先优势,这种能力不仅仅在于能够了解过去几个小时里谁在哪里买了什么东西,而且还能够知悉他们是否对此发表了微博、有没有在社交网络上发过相关相片。

城市亦是如此。能够收集成千上万个传感器的数据,然后描绘出都市的数字化地图,并能够将城市生活的异常行为(如交通流量)变成科学的一定能够脱颖而出。

不奇怪的是,政治运动也已经开始这样的尝试,发疯地挖掘数据已经成为政客聚焦“纳米定位(nanotargeting)”选民策略的一部分,这样才能够精准地知道如何才能捞到选票。

寻求对零碎数据进行解释的狂热解释了Google上周为什么要开始销售一款名为BigQuery的产品,该软件可以在数秒钟之内扫描几TB的信息。也正因为此,数据分析初创公司Splunk上市首日的股价即飙升了90%。

数据科学家的崛起

但是,哪怕你拥有***的数据解密工具也不能保证就能拥有大智慧。很少有公司拥有专门受训的员工,缺乏评估堆积如山的数据(包括数百万社交网络页面、智能手机上的非结构数据)的能力,更不用说对此做些什么。

去年麦肯锡发布了一份报告,把“大数据”形容为“创新的下一个前沿阵地”,但该机构同时也预测说到2018年,美国公司在这方面将会出现严重的人才短缺,具备必要的分析技能的人才缺口多达19万之巨。同时还认为美国具备数据知识的经理的需求将会超过150万(中国呢?)。

信息超载?

尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的Peter Fader教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集量才有意义。

Fader最近在接受麻省理工《技术评论》采访时说:

即便对过去行为拥有无穷多的知识,我们也无法掌握足够的信息去预测未来。实际上,我们的得到数据越多,我们所累积的盲目信心就越多……重要的是理解我们自身的局限在哪里,然后用有可能的***的科学去突破这种局限。数据再多也实现不了这个目标。

您怎么看呢?

【编辑推荐】

  1. IE10***版HTML5基准测试数据出现
  2. Ubuntu:未来的数据中心霸主
  3. 伦敦奥运IT管理员怕数据断流 与服务器同吃住
责任编辑:Yeva 来源: 36氪
相关推荐

2015-08-12 15:10:22

2013-03-01 11:09:29

大数据HadoopNoSQL

2017-08-02 08:56:43

大数据技术SaaS

2013-10-23 14:28:30

2012-12-25 09:58:50

数据科学家大数据

2012-12-26 10:18:47

大数据数据科学家

2016-09-08 23:47:17

大数据大数据服务

2013-10-22 11:28:21

大数据

2013-04-17 11:15:21

大数据

2013-12-17 13:17:25

大数据

2012-11-27 09:16:12

大数据数据中心云计算

2021-02-18 16:41:26

大数据疫情物联网

2014-08-15 09:09:32

大数据

2013-09-11 16:40:35

互联网金融大数据金融大数据

2013-05-20 10:40:27

大数据大数据时代Facebook

2015-10-21 16:54:45

云计算大数据华为

2018-02-01 16:25:55

2019-04-24 13:07:16

HadoopSpark分布式架构

2020-12-17 18:36:50

数据集大规模数据Kaggle

2018-04-02 09:55:37

点赞
收藏

51CTO技术栈公众号