HDS工程师手记——用“数据”遇见可知的未来

大数据
美国物理学会院士巴拉巴西的《爆发》,在最新的时间、最新的领域,讨论了一个最古老的问题:到底应该用决定论的观点,还是用非决定论的观点,看待人类行为?作为复杂网络研究的权威,巴拉巴西在大数据的新背景下,认为数据、科学以及技术的合力,会使得人类变得比预期中容易预测得多。
 

大数据

引言

美国物理学会院士巴拉巴西的《爆发》,在***的时间、***的领域,讨论了一个最古老的问题:到底应该用决定论的观点,还是用非决定论的观点,看待人类行为?作为复杂网络研究的权威,巴拉巴西在大数据的新背景下,认为数据、科学以及技术的合力,会使得人类变得比预期中容易预测得多。就象泰勒格迪做到的那样。在日趋精密的数字技术条件下,有了从四处搜集来的信息,我们不会再把人类的行为视为互不相关、随意偶然的独立事件。《爆发》作者的观点:人类行为93%是可以预测的。例如,通过对大量数据的分析追踪和预测每个公民的行踪。比如电梯摄像头拍到你11点20分离开了公寓大楼,那么10分钟后在你家附近地铁站的监视画面中就很有可能搜寻到你。这并不只是科幻故事,而更可能是大数据时代人类真实的生存现状。在大数据时代,通过对各种数据的充分了解,预测个体的行为可以变得非常容易。

遇见可知的未来

如果最变化无常的人类行为93%是可以预测的,那么,未来其它的事情是不是也可以预测呢,是不是预测的准确率也能达到93%呢。假设未来能预测93%,我们是不是可以认为我们的未来是可知的,我们能遇见可知的未来?

在不远的未来,未来世界的预测准确率将超过93%,天气能预测准确率能达到93%, 地震能预测准确率超过93%,疾病预测准确率超过93%,甚至股市准确率超过93%。我们的未来就是可知的未来。

有数据才能遇见未来

大家都对遇见可知的未来充满期待,但怎么才能遇见可知的未来呢?这就是时下非常热门的话题:大数据分析。大数据分析流程如下图所示:

大数据分析

大数据分析流程

从上图可以看出,对于大数据我们期待商业智能,就像我们想吃美味可口的食物,我们需要厨房(分析平台),需要厨师(行业知识和分析算法),但最重要的是我们要有食材(数据),食材才是最根本、最重要的东西。我们要知道数据在哪里,并且知道如何从浩如烟海的数据中挑选出对我们有用的数据。例如食材很多,要能精确的挑选出哪些食材是做宫保鸡丁的***食材。

传统的数据仓库技术,如BA存在了几十年,但是它主要是处理结构化数据,主要提供商业分析,而现在发展为BI,Business Intelligence的英文缩写,中文解释为商务智能。BI最终展现给用户的信息就是报表或图视,数据集合就象玩具“魔方”一样,可以任意快速的旋转组合报表或视图。从内容上BI除了包含结构化数据,还包含非结构化数据,如互联网,社交媒体和物联网(IOT)数据。这是大数据的特点。

IOT – 是Internet Of Things的缩写,字面翻译是“物体组成的因特网”,准确的翻译应该为“物联网”。物联网(Internet Of Things)又称传感网,“物联网”(Internet Of Things)指的是将各种信息传感设备,如射频识别装置、红外感应器、全球定位系统、激光扫描器等种种装置与互联网结合起来而形成的一个巨大网络。其目的是让所有的物品都与网络连接在一起,方便识别和管理。物联网的兴起将带来数据爆炸增长,也将对我们大数据分析和未来社会的预测产生影响。

数据处理的关键- ETL

使用数据最关键是数据梳理 – ETL。从浩如烟海的数据中,提取对我们有价值的数据和信息。ETL,(Extract Transform Load),它实现数据的抽取,转换及装载工作。ETL在技术上主要涉及增量、转换、调度和监控等几个方面的处理:

抽取:将数据从各种原始的业务系统中读取出来。

转换:按照预先设计好的规则将抽取的数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。

装载:将转换完的数据按计划增量或全部导入到目标数据库中。

现在的大数据分析中,ETL是基础也是关键,HDS公司最近收购的Pentaho就能够实现各种数据的ETL整合。如下图所示:

大数据分析

从上图可以看出,Pentaho可以将传统的客户信息,交易信息等结构化数据,ETL(PDI)到标准的DW库中,也可以将IOT数据,地理位置信息(Location), 互联网和社交媒体信息ETL(PDI)到规定的目标中,如MongoDB和Hadoop中,并且能够集成传统数据和新的社交数据,为大数据分析提供全新视角。

拥有大量的数据,我们可以遇见可知的未来,数据ETL加工、转换、调度和处理是大数据分析的基础,HDS的Pentaho能够实现各种数据的ETL加工、转换、调度和处理,为企业客户大数据分析助一臂之力。

责任编辑:李英杰 来源: 36大数据
相关推荐

2010-01-26 10:00:30

Google工程师Web

2021-02-25 11:36:28

大数据Gartner

2018-08-16 17:18:49

数据处理

2015-01-28 00:35:00

Coursera大数据

2016-04-08 14:32:32

全栈工程师世界

2016-10-20 16:09:03

技术预见互联网技术路线图

2018-11-15 15:55:44

前端工程师Web云计算

2019-11-08 11:08:29

测试工程师AI人工智能

2017-11-09 14:12:44

大数据软件工程师算法工程师

2023-11-02 11:49:22

2017-05-05 10:45:45

大数据动向

2011-05-24 10:01:21

SEO

2015-08-26 14:18:25

Web前端工程师价值

2023-03-11 22:10:20

数据工程师算法数据库

2020-11-02 09:11:13

开源技术 工程师

2015-05-04 13:24:12

工程师OpenStack公有云

2022-03-14 18:14:17

NetOps网络

2015-09-30 10:25:03

前端工程师

2017-10-05 07:08:16

数据工程师ETL数据集

2020-12-23 07:56:13

数据科学数据工程技术
点赞
收藏

51CTO技术栈公众号