VMworld 2012:Hadoop离虚拟化还有多远?

云计算 虚拟化 Hadoop
如果软件应用能够超越一切基础架构的差异性,企业IT将会少掉多少烦恼?本周举行的VMworld 2012大会上,VMWare重申了该公司的重大图谋:将所有物理资源虚拟化,实现全面池化以快速调配和部署,即软件定义型数据中心(SDDC)。在应用层,这家虚拟化巨头正在努力将Hadoop搬进虚机之中,以应对“大数据”。

   如果软件应用能够超越一切基础架构的差异性,企业IT将会少掉多少烦恼?本周举行的VMworld 2012大会上,VMWare重申了该公司的重大图谋:将所有物理资源虚拟化,实现全面池化以快速调配和部署,即软件定义型数据中心(SDDC)。在应用层,这家虚拟化巨头正在努力将Hadoop搬进虚机之中,以应对“大数据”。

  大数据是时下业界热议的话题,走向宏图的路上,VMware自然无法对其视而不见,但要实现Hadoop的虚拟化,VMware能否一帆风顺呢?

  情定Hadoop,情有可原

  站在大数据时代的边上,Apache Hadoop由于其低成本、可扩展性等优势,成为IT厂商们的大数据处理策略的事实标准。因此,VMware对Hadoop青眼有加,也是意料之中的事,何况VMware的母公司EMC早已推出过Hadoop发行版,且EMC大数据分析平台GreenPlum也是实现了Hadoop处理。

  

[[93612]]

 

  VMware首席技术官 Steve Herrod博士

  VMworld 2012上,VMware首席技术官 Steve Herrod博士在演讲中表示,Vmware的开源项目Serengeti,将支持企业能够在虚拟和云环境中快速部署、管理和扩展Hadoop。

  此前,VMware宣布了其大数据策略:在统一的vSphere云架构和HDFS文件系统之上,提供GemFire实时处理、GreenPlum交互处理及Hadoop批处理三种模式。另外,VMware收购的云端大数据分析工具Cetas,也是提供在Hadoop平台上的分析服务的。(详见:《三路出击 VMware云平台抢滩大数据》)

  

 

  VMware大数据策略

  从这个架构中我们也可以看出,Hadoop在虚拟环境中的成熟程度,对VMware的大数据策略至关重要。

#p#

  先天不足,Serengeti补之

  只是Hadoop既非万能,也受限于环境。首先,作为开源项目,Hadoop存在部署和运营的复杂性、特定的硬件需求、安全上的顾虑和服务水平保障等障碍,让企业很难充分发挥其威力,这也是各种Hadoop发行版诞生的直接原因。

  对VMware来说,更为关键的是,根据Apache的Virtual Hadoop wiki文档给出的结论,You can bring up Hadoop in cloud infrastructures, and sometimes it makes sense, for development and production. For production use, be aware that the differences between physical and virtual infrastructures can threaten your data integrity and security - and you must plan for that.(可以将Hadoop带到云基础架构上,但物理和虚拟基础设施之间的差异可能危及数据完整性和安全性。)

  在针对大数据项目的风险的探讨中,许多业界专家都指出数据的完整性的重要性,所以这个问题必须解决,Serengeti应运而生。

  Steve Herrod博士称,Serngeti的作用就是可以快速在虚拟化环境中部署Hadoop,并进行有效的监测和管理,实现Hadoop集群的高弹性。当然,VMware还提到过,虚拟化还让Hadoop适用于多租户环境,让Hadoop安全性提高(这里指VMware虚拟化在不同集群之间产生强隔离)。

  此外,VMware也致力于同Hadoop合作伙伴共同改变Hadoop分布式文件系统和Hadoop MapReduce开发。Spring for Apache Hadoop(2012年2月首次发布的开源项目)的更新,让企业开发者能够轻松利用Apache Hadoop开发分布式处理解决方案。

  

[[93613]]

 

  Serngeti开源项目

  但还是有问题。虚拟化做得再好,性能损耗是很难避免的。微软亚太研发集团首席技术官孙博凯(Prakash Sundaresan)坦言,Windows Azure的主要功能是提供池化的IT资源与服务,从每个节点看,虚拟层会造成每节点10%左右的性能损耗。

  不过,VMware方面表示,Hadoop在物理和虚拟化环境下的运行性能的测试表明,两者相差不超过10%,甚至是在一个物理机上运行两个虚拟机的时候,虚拟环境下运行的性能还要稍微的优于物理环境。

  

 

  在相同的环境下,Hadoop在物理和虚拟化环境下的运行性能测试,横轴是Hadoop的各个评测项目基准点,纵轴是在一个评测项目下面,Hadoop集群在虚拟化环境下运行的时间和在物理化环境下运行时间的比值。如果为1就表明是相同的,如果大于1,则表示物理环境下的性能更优,反之则表示虚拟化的环境下更优。

  当然这个结果是有争议的:只代表EMC存储对VMware的支持好, 计算性能方面,x86服务器的虚拟化Hypervisor做得再好也不可能提供超出物理资源的性能。

#p#

  因缘际会,云领未来

  搁置性能疑虑,我们知道,在虚拟化和云计算时代,数据中心的虚拟化程度已经越来越高。保罗·马瑞兹(Paul Maritz),这位即将卸任VMware CEO(链接:《ESG分析师王丛:看VMware CEO 的交替》)表示,从2008年至今,数据中心的虚拟化程度将从25%增长了60%,未来会增长到90%。

  

[[93614]]

 

  VMware 即将卸任的CEO 保罗•马瑞兹

  因此,如何在虚拟环境中更好地得到大数据的价值,这是企业必须面对的问题。如果企业的数据已经在亚马逊S3上,这个问题就更加紧迫。

  对于企业来说,既然选择了云或者虚拟化,只要TCO是下降的,部分的性能损失也是被允许的。这就是Hadoop运行于虚拟环境的机遇,VMware的机遇。

  VMware唯一需要的,就是进一步的改进,解决存储、网络方面的瓶颈。这方面,作为SDDC战略的一部分,以12.6亿美元收购面向软件定义网络的Nicira,体现了VMware的努力。而VMware即将上任的CEO帕特•基辛格(Pat Gelsinger) 在他的演讲中,对VMware为转移网络容量、存储和处理能力的所提供的工具做了一系列的诠释。

  基辛格说,“当前的数据中心已经过时,是时候转向云端了。”

  遭遇微软,步步惊心?

  既然说大势所趋,就不难理解,看上虚拟化Hadoop的不只是VMware。我们知道,VMware在虚拟化领域的老对手微软也是心有戚戚焉。

  对于Hadoop与虚拟化的结合,孙博凯说,从整个Windows Azure资源池的角度看,架设在其上的Hadoop架构足以能够满足客户的需要;同时,微软也满足部署客户私有云平台上的Hadoop架构的需求。

  孙博凯表示,微软的Hadoop并非把Hadoop简单迁移到微软平台上,相对开源版本做了包括高可用性、安全性和可靠性的改进,并和微软管理工具体系整合。例如基于Windows Azure的Hadoop架构,就意味着Hadoop都架设在一个高可用的超大规模虚拟集群上。

  

[[93615]]

 

  微软亚太研发集团首席技术官孙博凯

  从整体上看二者的服务器虚拟化竞争,一个精彩的评价是,微软要拼命证明Hyper-V在技术方面已经可以与VMware抗衡,VMware则极力证明其解决方案并非比微软昂贵。

  但马瑞兹表示,VMware与微软的竞争不会是价格的竞争:微软说Hyper-V已经够好,但虚拟化的竞争早就不是简单的Hypervisor的竞争,而是相关工具以及整个生态系统的竞争。所以,“VMware与微软根本就不在一个层次上”。

  事实上呢,我们看到,在VMware 2012上,基辛格正式宣布,根据针对1万3千名客户的调查结果,取消了复杂的vRAM付费方式,全部产品改回按处理器付费的授权方式。这个问题,现场上万名观众雷动的掌声说明了一切。(链接:《VMware取消vRAM改回按处理器付费》)

  

[[93616]]

 

  EMC现任COO、VMware未来CEO帕特•基辛格

  说到生态系统,VMware长期耕耘于虚拟化,并且EMC刻意保留其独立性,自然是有利于其生态系统的建设。但从另一方面说,微软在云计算时代来势汹汹的Windows Server 2012,也不是吃素的。更为重要的是,微软已经学会了与开源协作。孙博凯说,微软不仅是把Hadoop融合到Windows平台上,同样也会坚持开源的原则,将Hadoop上的研发成果,回馈给整个开源社区。

  值得一提的还有思科。VMware在用于管理电脑网络和存储设备的软件领域的扩张,无疑要让思科重新审视两者之间的战略合作关系。

  另外,选择VMware,就意味着必须虚拟化;选择微软,则可以商量——孙博凯用罗素的名言“参差多态,乃幸福之源”说明,微软一直向客户提供多种选择,而选择权在客户手里。虽然说目标是虚拟化,但微软的策略显然可以获得客户更多的心理分数。

  领袖方面,微软的鲍尔默这几年来与“最差CEO”、“拖后腿”、“下课”这样的词语结下了不解之缘,而马瑞兹和基辛格则被是为乔图斯优秀的接班人,但这既不意味着VMware都不会出错——vRAM就是一个例子,也不意味着微软真的已到末日——微软截至6月30日的2012 年第四财季财报显示,企业级市场仍然是其主要收入来源,服务器和开发工具部门营收同比增长13%。

  结语

  当云计算和大数据让企业避无可避,我们即使不向往SDDC,也必须考虑到虚拟环境中的大数据处理。也许我们可以选择Hadoop之外的解决方案,但良好地运行于虚拟环境的Hadoop平台,无疑可以让我们事半功倍。现在,VMware和微软等厂商的努力、竞争与僵持,可以让我们距离这个结果更加接近。当然,企业必须明白,选择什么样的大数据解决方案,取决于企业的实际情况。

责任编辑:小明 来源: IT专家网
相关推荐

2011-07-21 08:53:42

HTML 5

2015-11-30 11:02:00

5G通信技术

2018-09-27 15:42:38

人工智能看病医生

2012-11-27 09:23:15

云计算IT

2021-10-13 22:41:24

人工智能数据信息技术

2023-03-02 10:31:01

6G

2022-11-16 16:05:02

2022-04-20 12:19:35

400G中国电信中国移动

2018-08-30 10:14:20

代码开发机器

2016-11-21 16:25:10

5G霸主中国

2021-03-25 20:23:09

人工智能AI肺结核

2020-10-15 08:58:38

人工智能机器学习技术

2019-03-08 09:36:36

IT创业者技术

2019-10-12 13:57:29

5G

2018-05-02 11:38:00

人工智能AI

2022-01-05 22:31:26

数字人民币加密货币区块链

2019-07-09 16:25:42

区块链数字货币比特币

2010-09-02 09:38:42

VMworld 201虚拟化

2020-07-28 10:09:18

5G网络数据5G基站

2013-12-11 09:54:06

移动办公iPad苹果
点赞
收藏

51CTO技术栈公众号