大数据处理一定需要Hadoop吗?

大数据 Hadoop
Google强大的搜寻引擎每天处理庞大的搜寻数据,靠的是数十万的伺服器同时作工。然而一般企业并无法使用Google所用的内部搜寻引擎工具,所以,拥有处理大数据工具的分散式运算平台Hadoop应运而生。

Google强大的搜寻引擎每天处理庞大的搜寻数据,靠的是数十万的伺服器同时作工。然而一般企业并无法使用Google所用的内部搜寻引擎工具,所以,拥有处理大数据工具的分散式运算平台Hadoop应运而生。

[[130733]]

但问题是Hadoop使用上有难度,数据处理公司Cloudera决心要解决这个问题。

过去的公司企业仰赖传统的关联式资料库和数据仓储就可应付所需,然而,今日电子商务、社交媒体和行动运算不断成长使得资料量暴增,许多企业便开 始使用Hadoop等的工具处理数据。现在,Cloudera现在p更针对Hadoop平台推出类Google的搜寻引擎:Cloudera Search。

搜寻引擎让Hadoop更平易近人

Cloudera希望客户能在Hadoop壮大之前就将资料储存进去,并将之整合入平台。但使用Hadoop平台与资料互动必须要懂得MapReduce运算技术,也就是说你得会写Java语言,这对许多使用者来说并不方便。

虽然Hadoop已经推出许多工具让使用上更便利,但Cloudera希望更进一步建立一个Hadoop的搜寻引擎。产品经理泽德勒维斯基 (Charles Zedlewski)说:「数万开发者可能知道怎么用MapReduce,执行SQL指令,但会使用搜寻引擎的人有数十亿人。」

Cloudera Search能够与Hadoop分散式档案系统(HDFS)或资料库系统Hbase整合,使用者可以输入搜寻字串后就找到一串搜寻结果。这项搜寻工具是以Apache Solr搜寻器为基础。

市场研究公司RedMonk分析师欧葛瑞迪(Stephen O’Grady)表示:「每多一项数据处理工具对Hadoop都有好处……从写MapReduce程式到支援SQL语法的Hive或Pig等套件,每项工具都让数据处理更有效率。」

所有大数据都该放入Hadoop吗?

这对改善Hadoop可用性的确帮助不少,但问题是:客户是否真的有需要将它们所有的数据都放入Hadoop?微软今年稍早发表一份报告,主张 大多数的公司只需要增加丛集伺服器的使用数量,不须尝试用单台伺服器处理数据,报告指出,甚至雅虎和脸书两家最需要数据处理效能的公司,也是透过增加伺服 器丛集解决效能问题。

但许多公司正面临数据不断增长的问题,一开始就加入Hadoop是不错的选择,RedMonk过去也是Hadoop的使用者,但最近转用BigQuery等其他的Google资料库工具,原因是他们的数据在量上本质就比较小,而且成长的速度也没有分析师原本预测得快。

但欧葛瑞迪说:「如果我们能够更快速地获得数据,就一定会使用Hadoop!」

责任编辑:王雪燕 来源: OPEN资讯
相关推荐

2011-12-08 09:56:14

Hadoop

2012-05-31 14:37:10

Hadoop大数据

2015-05-05 11:18:18

大数据Hadoop技术处理

2011-09-01 15:12:43

SQL ServerHadoop

2013-09-03 09:09:30

大数据

2017-05-11 11:00:11

大数据Hadoop数据处理

2018-01-22 08:33:28

SparkHadoop计算

2017-05-05 09:53:34

Hadoop大数据处理

2013-12-30 10:40:12

大数据处理大数据Hadoop

2013-12-27 16:15:11

Hadoop大数据处理

2017-05-11 17:36:50

2018-12-07 14:50:35

大数据数据采集数据库

2020-11-02 15:56:04

大数据数据库技术

2019-12-11 14:32:49

分布式大数据系统

2017-01-19 17:57:47

大数据

2013-11-01 09:33:56

VMware李严冰hadoop

2017-07-21 14:22:17

大数据大数据平台数据处理

2021-07-20 15:37:37

数据开发大数据Spark

2012-09-20 11:23:18

Hadoop云计算

2021-03-29 22:58:34

大数据Java编程语言
点赞
收藏

51CTO技术栈公众号