大数据应用?你先搞定数据获取再说

译文
大数据
大数据不再像过去几年一样,受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家,还会被R和Hadoop之类的开源工具搞得心烦意乱。现在许多公司在大数据分析中最头疼的问题,其实是如何获取数据。

【51CTO.com快译】虽然大数据已经变得更像一句营销术语,但是它仍有巨大的潜力没有被挖掘出来。不过,得先把数据获取这个大麻烦解决了。

企业在面对数据的时候,比知道怎么处理更多的情况,是在这些数据里漫无目的的游泳。遗憾的是,太多的公司将这种现象与大数据本身关联起来。从技术角度来说,大数据是非常具体的一件事――结构化数据(企业的专有信息)与非结构化数据(社交媒体数据流和政府新闻源之类的公共数据源)的结合体。

[[165264]]

如果你将非结构化数据覆盖在结构化数据之上,通过分析软件将其可视化,你就会得到过去从未有过的洞察力――预测产品销售、更精准地目标用户、新的市场机遇,等等。

大数据不再像过去几年一样,受限于工具缺乏的问题。那时候搞大数据意味着团队里必须有数据科学家,还会被R和Hadoop之类的开源工具搞得心烦意乱。

如今,多少公司都争着帮你可视化大数据:从Tableau、Qlik、TIBCO和MicroStrategy之类的专业公司,到微软、IBM、SAP和甲骨文之类提供端到端服务的厂商,不一而足。

不过,据上周出席奥兰多中级市场CIO论坛/中级市场首席营销官(CMO)论坛的IT主管们声称,许多公司在大数据分析中最头疼的问题,其实是如何获取数据。

一位CIO说:“我们IT部门的最大问题,是我们如何才能将数据获取进来,这件事非常麻烦。”

这种说法也得到了相关数据的证实。

数据集成公司Xplenty开展的一项调查声称,三分之一的商业智能专业人员把50%至90%的时间,花在了清理原始数据和将数据录入到公司的数据平台的准备工作上。这种现象的原因,可能与只有28%的公司认为自己能从数据中获得战略性价值有很大关系。

数据清理的问题还包括,眼下IT行业许多最抢手的专业人员,正在花大量时间处理这项让人晕头转向的工作:在分析数据之前先筛选并组织整理数据集。

这显然对于数据的可扩展性非常不利,也严重限制了大数据的潜力。随着物联网不断发展,收集更多的数据对我们来说将越来越容易,这个问题只会变得更严峻。

有三种可能的方法有望解决这个问题:

1. 大数据分析软件不断完善――许多这些公司在过去五年时一直投入大量精力在大数据领域,减轻数据清理环节压力的工具不太可能在短期内出现重大突破,但有望实现逐步改进。

2. 数据准备人员成为数据科学家的助手――正如律师助理帮助律师处理重要的基础工作,数据准备人员也会帮助数据科学家处理基本上同样的底层任务。我们已经在某种程度上看到了这一幕。不妨阅读TechRepublic的这篇文章:《“数据标记”是人工智能时代的新新蓝领工作吗?》(http://www.techrepublic.com/article/is-data-labeling-the-new-blue-collar-job-of-the-ai-era/)

3. 利用人工智能清理数据――另一种可能性是,用来清理、筛选和分类数据的软件和算法将被编写出来。这一幕极有可能出现,但是我们还应预料到,这也不是“银弹”。微软、IBM和亚马逊正在致力于用人工进行软件无法处理的数据标记工作――而这正是全球自动化和算法领域的三巨头。

原文标题:Big data's biggest problem: It's too hard to get the data in ,作者:Jason Hiner

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

 

责任编辑:Ophira 来源: 51CTO.com
相关推荐

2023-11-13 08:16:08

MySQL数据数据库

2018-03-07 22:22:52

物联网技术矩阵边缘网络

2021-08-31 07:02:34

数据响应Vue侦测数据变化

2010-05-27 15:50:39

2016-11-23 20:34:29

Cloudera

2019-07-09 08:23:07

数据安全旅游网络安全

2019-03-05 10:16:54

数据分区表SQLserver

2018-06-21 07:28:50

2020-12-21 14:42:42

大数据云计算人工智能

2016-12-04 16:46:51

大数据架构机器学习

2011-07-22 15:22:41

数据中心冷却

2016-04-29 10:02:39

2013-02-25 11:04:39

Teradata 大数据天睿

2023-12-01 15:50:46

2013-04-26 14:40:22

大数据全球技术峰会

2015-04-22 14:37:41

大数据大数据奇特应用

2017-01-18 08:41:22

大数据画像建设

2017-07-19 11:04:40

大数据大数据应用方向

2013-12-03 10:51:43

2015-06-12 10:30:44

数据可视化开源工具
点赞
收藏

51CTO技术栈公众号