大数据定义探究

云计算
大数据的话题铺天盖地,但是各界人士对这一流行话题的表述与理解却非常混乱。曾经有段时间,很多企业以4V特征来定义大数据,即Volume(数量)、Velocity(速度)、Varity(种类)和Value(价值)。这样一来,互联网上客户交互的日志,社交媒体上的用户评论等数据,仍然占据大数据的主流。

大数据的概念定义依旧处在混沌的状态。很少有人明确说明,大数据到底是一种新技术,还是一种多样化的数据形态?

大数据的话题铺天盖地,但是各界人士对这***行话题的表述与理解却非常混乱。曾经有段时间,很多企业以4V特征来定义大数据,即Volume(数量)、Velocity(速度)、Varity(种类)和Value(价值)。这样一来,互联网上客户交互的日志,社交媒体上的用户评论等数据,仍然占据大数据的主流。还有一部分人在谈大数据时,实际上指的是以Hadoop为代表的新技术。这是长期以来关于大数据***的两种说法,前一种从数据本身的特征出发,后一种从数据处理技术出发。

不过,最近一段时间,大数据的概念与说法比以前更广阔了。我们经常会看到大数据行业应用的报道,例如大数据提升了农产品产量。但仔细分析,那些其实是在说这些行业更好地利用了数据来指导业务与运营,与我们此前谈的大数据没有任何关系。

近期关于大数据的报道,还有一个特点就是它总是与现阶段同样火爆的“互联网金融”话题一同出现。这些文章提及大数据的主要逻辑似乎是:互联网业务模式下产生的数据就应该是大数据;或者暗示互联网业务就必须采用大数据技术才行。但互联网业务到底是因为数据量大,还是因为非结构化,还是因为是新技术才与大数据发生关系?我们并不能看到两者间的必然联系。

显然,很多传统企业受到了互联网模式的冲击,企业的决策者需要做出应对。可是,他们面临的相同问题是:互联网业务模式与大数据到底是什么关系呢?在这样的形势下,迫切需要对大数据的概念做出更加准确、更加明晰的定义。

要回答这个问题,必须抛开Hadoop技术和数据形态,从分析现代信息社会的核心本质特征出发来寻找答案。现代信息社会的本质特征是更广泛、更深入的数字化,以及全社会范围内数据的互联互通。这样看来,现代信息社会确实进入了“大数据时代”。仔细分析后,我们发现,“大数据时代”区别于之前的“小数据时代”的核心本质特征主要有两个:

一是数字化的范围越来广泛深入。这里所说的“数字化”并不等同于十年前我们所说的纸质文档“数字化”。如今的“数字化”更多地是指:人们或者企业已经习惯“以数据指导业务”的运营模式,而不像以前那样是由业务向数据提出需求。这便是通常所说的“数据驱动业务”的相关习惯、策略与模式,它在大数据时代被越来越广泛地采纳。另一方面,如《大数据时代》一书所说,在大数据时代,人们更多地依赖全量数据分析而不是依赖采样。这也逐渐成为一种趋势。

二是数据的互联互通。现代信息社会的另一个重要特征,就是数据在全社会范围内不再孤立。企业现在所面对的,不仅仅是其内部数据互联互通的问题,也需要面对数据在全社会范围内的互联互通问题。

有关于此,很多人可能会想到企业结合内外部数据刻画客户360度视图的例子。而笔者却想举另外一个例子:当某企业的网上客服***次与某个准客户进行交流时,企业的内部数据中,并没有关于该客户的任何数据,客服人员本来是没有办法对该客户提供个性化的、精准的服务的。但在全社会范围来讲,这个客户虽然是***次访问该企业的网站,但却用同样的电脑访问过很多其他网站。在社会范围内,会有一些组织搜集与分析这些互联互通的“大数据”,刻画出使用该客户的特征。于是,网上客服只需利用数据互联互通的特性,从外部直接申请获取现成的、关于该客户的相关信息,就可以对其做出准确地反应。

因此,在现阶段,我们将大数据定义为“更加广泛、更加深入的数字化,以及全社会范围内数据的互联互通。”对企业而言,大数据问题的本质不是技术创新,也不是数据形态的多样化,而是企业实现“数据驱动业务”的相关战略与战术。这一结论应该可以比较全面地概括当今关于大数据的所有说法。

现在,我们再来回答互联网业务模式与大数据之间关系的问题。既然互联互通是大数据最重要的特征,而互联网正是实现数据互联互通最根本的途径与方式。那么,互联网金融等新的业务模式,与大数据本身就有了不可分割的关系,可以认为是同一事物的两个方面。现在看来,它们不过是对现代信息社会的核心本质特征透过不同视角的描述而已。企业可以将自己应对互联网业务的战略称作互联网战略,也可以称作是大数据战略。

责任编辑:王程程 来源: 大数据研究者
相关推荐

2020-01-09 10:47:15

HDFS数据文件

2019-12-24 08:11:39

大数据架构数据开发

2018-02-05 08:26:11

大数据云存储安全性

2015-05-18 15:36:38

大数据如何定义大数据

2015-08-11 09:22:20

2016-09-21 12:44:15

大数据TalkingData

2012-10-09 10:56:17

大数据Teradata分析

2022-06-13 19:12:15

云计算云原生

2020-09-02 10:35:19

大数据法律大数据应用

2017-05-22 17:42:07

大数据

2019-01-14 19:37:08

大数据AI场景

2015-09-01 13:34:43

数据中心付费方式

2020-06-04 11:46:15

Teradata大数据新基建

2012-06-12 10:05:25

恶意软件大数据

2020-11-18 11:05:22

大数据

2010-08-19 11:03:56

CSSpadding

2012-12-13 18:24:11

大数据变革云计算

2015-10-20 10:33:24

数据中心抗干扰

2014-10-31 15:08:23

商业智能大数据

2013-07-11 13:56:37

大数据
点赞
收藏

51CTO技术栈公众号