大数据:价值在于分析 风险如何规避?

数据库
大数据时代的来临已经毋庸置疑。数据,不仅是企业的生命线,而且掌控着我们日常生活的脉搏;大数据,则更多描述的是一种趋势,一种数据量猛增、来源各异、获取速度加快、价值更高的趋势。

大数据时代的来临已经毋庸置疑。数据,不仅是企业的生命线,而且掌控着我们日常生活的脉搏;大数据,则更多描述的是一种趋势,一种数据量猛增、来源各异、获取速度加快、价值更高的趋势。

如何有效地利用这些数据,通过分析获取其中的价值,这是摆在我们面前的一个难题,也是近日在北京举行的大数据世界论坛上众多与会者关注的焦点话题。

来自EMC中国研发中心的首席技术官陶波在大会期间接受了ZDNet记者采访,畅谈了他对大数据给基础架构带来的变革、云计算与大数据的整合以及数据分析的看法。

变革还是前瞻?

[[39836]]

EMC中国研发中心首席技术官陶波,负责云计算项目研发。在加入EMC之前,他曾在谷歌中国工作,负责管理谷歌北京研发团队和诸如视频、Youtube等产品的研发

根据IDC最新数字宇宙研究报告,2011年数据信息量将超过1.8ZB,需要管理的数据量将增长50倍,到2012年大量数据将会以文件的形式存储……这给我们提出了如何管理如此海量数据的巨大难题。

最近IBM对全球CIO调查得出的结论从一个侧面印证了利用和管理大数据的重要性:“从企业界搜集的大量数据中获得的启示,并将这些启示转化为具有实际商业利益的竞争优势,对当今公共和私有部门机构来说至关重要。”

大量数据需要具有高扩展性的存储空间、让科学家和分析师们协同工作的管理平台以及执行决策的工具。于是存储厂商们开始意识到,大数据正在改变着数据存储。Gartner称大数据“既是一项破坏力,也是一个已经影响到传统认识和业务模式的紧迫问题。它打乱了现行趋势,同时也代表了公共部门、业务和IT 领导者们无法忽略的巨大机会。”

陶波认为,与传统数据仓库不同的是,大数据涉及的量更大,而且包括大量文本等非结构化数据的处理。在数据分析方面,传统数据库只能简单地将所有数据处理一遍得出结论,这在数据增长如此迅猛的当下显示是不现实的,而大数据可以对过去的数据进行汇总和抽样,通过对一小段时间内的新数据分析得到相对精确的结论,现在大多数企业都不具备这样的能力。

陶波强调说:“新技术进入企业IT中必然会带来一定的冲击,因此对于已经具备一些数据分析能力的公司来说,存储系统虽然不需要完全重建,但不可避免地要做出一些改变,例如增加横向扩展存储,甚至BI软件都要发生深刻的变化。”

过去十几年中我们看到更多的是纵向扩展应用,而互联网领域的很多应用都是横向扩展,例如谷歌的集群计算系统可以管理分布在世界各个地方的上百万台服务器。

Isilon是EMC在横向扩展NAS方面的一个武器,它有144个节点和15 PB容量,能够整合应用与工作流。Isilon的核心是OneFS横向扩展操作系统,它是单卷容量达到15PB的单一文件系统,原始存储利用率达到80%,减小了瓶颈的发生。

如何通过分析获取价值?

陶波认为,大数据分析需要具备四个条件:首先是数据科学家,这将成为未来最热门的行业之一;创新,需要不断提出关键性以及具有启示性的问题;由大数据分析师们组成的社区,协同地对数据进行分析,共享分析结果;大数据产品堆栈,为大数据分析提供基础支撑。

技术聚合使得大数据分析得以实现,虚拟化已经成为云计算的代表,x86的计算性能不断提高。大量数据被存储和处理,云计算成为大数据分析得以成为现实的重要支撑

早些时候,EMC收购了小型软件生产商Greenplum,获得了后者可以用于横向扩展和加速数据仓库以及业务分析应用的软件,EMC将其打造成为一个业务分析引擎,用于处理来自在线以及传统数据库来源的大型数据集,围绕Greenplum创建了EMC Hadoop和Greenplum数据库等产品,与Oracle以及Teradata已有的加速业务分析平台相竞争。

解析大数据对于新型业务分析应用存储所带来的影响,首先要区分传统数据仓库多个流程,例如,标准的提取、转换以及加载流程对于传统数据仓库应用来说很常见,但达不到足够的可扩展性和高速度。一款整合了服务器、存储和网络的专用设备给出了答案——Greenplum HD数据计算一体机无缝集成了结构化与非结构化数据,是Greenplum Database与Apache Hadoop的强强联合,而Hadoop则是应对非结构化数据实时处理的一个关键手段,它使得互联网企业专门为自己业务设计的一些程序和管理软件、计算和分析方式渗透到企业中。

Greenplum Chorus是EMC的一款企业数据云平台,堆栈了各种大数据分析工具(业务分析、BI、统计等)。陶波表示,Greenplum Chorus可以做到自助式的调配、数据服务协作分析。用户同时部署Chorus、VMware和Greenplum数据库来创建一个自助式的分析基础架构,自助服务可以生成一个服务器或者一个沙箱,而这个沙箱既可以基于虚拟化的IT云计算平台上,也可以是在Greenplum的数据库之上的。同时,用户可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作,开发者可以创造一个合作环境,在分享数据的同时控制授权,避免私人数据被不适当的使用。

机遇还是挑战?

大数据很复杂,因为它的来源很复杂,从结构化数据到非结构化数据;大数据很复杂,因为它交付和使用的速度,例如实时;大数据很复杂,因为我们生成的信息量是惊人的。以前,我们的家用存储容量用MB和GB为单位,现在已经是TB,企业级更是用到了PB。

大数据的复杂性也带来了一系列挑战。其中之一就是如何理解和利用非结构化形式的大数据,例如文本或者视频。另一个挑战是如何获取最重要的数据,并将其实时地交付给合适的人群。第三个挑战是我们如何保存这些数据,当然还有隐私性和安全性等诸多难题。

陶波举例说,HDFS的代码进行改进加强安全性,如果大数据分析是在企业内部进行,但是在大量数据交给别人的时候,数据安全和隐私都是需要特别关注的。未来如果做“分析即服务”时为防火墙外提供服务的时候,对安全性的要求就更加高了。

服务提供商还需要在云计算平台上搭建大数据分析服务,所以对云计算会有比较大的改变。对于非结构化数据处理并不理想的BI公司来说也都需要有所改变,如果不具备应对大数据带来冲击的能力,那么将丧失的不仅仅是机遇。

麦肯锡曾经称大数据“是创新、竞争和生产力的下一个前沿领域”。我们可以利用大数据回答以前我们无法涉及领域的问题,可以从中获取知识和见解,定位趋势并利用这些数据来提高生产力,赢得竞争优势。

与潜在机遇相比,大数据的挑战是有限的,因为前者只受我们的创造力和能力的局限。相信在今年,我们将看到市场中将有更多针对分析应用的存储设备涌现,存储厂商必定不会错过大数据这场盛宴。

【编辑推荐】

  1. 数据挖掘中的那些事儿
  2. 大数据下的数据分析平台架构
  3. 数据挖掘逻辑体系结构的内容类型有哪些
  4. 数据挖掘中易犯的几大错误
  5. 如何在存储过程中实现插入更新数据

 

 

 

责任编辑:艾婧 来源: 刘杰的日志
相关推荐

2020-09-22 19:54:39

大数据

2012-12-06 16:12:37

浪潮张东云海大数据一体机

2022-06-28 11:09:42

边缘计算云计算IT

2013-05-17 09:51:35

大数据分析系统大数据

2016-12-29 19:48:01

数据分析大数据Hadoop

2018-09-27 14:37:09

风险云计算安全

2010-08-30 12:01:05

曝光系数风险估价

2013-07-03 16:30:14

2017-10-24 13:14:00

大数据数据科学数据分析

2018-07-23 16:45:36

数据分析RFM方法

2014-05-29 23:18:31

开源开源价值

2013-05-16 10:56:52

2022-11-07 11:16:30

大数据数据仓库Hadoop

2010-09-08 15:19:46

生产环境性能测试风险

2016-10-13 16:02:04

2016-12-07 09:15:16

大数据崔崇彦

2015-09-08 10:11:47

大数据未来共享

2013-03-20 10:40:19

大数据大数据应用

2014-03-12 10:10:31

大数据分析

2013-04-19 10:58:33

大数据大数据全球技术峰会
点赞
收藏

51CTO技术栈公众号