基于流的数据处理可以使Hadoop运行更快吗?

云计算 Hadoop
Apache Hadoop分布式文件处理系统是有好处的,而且它正在获得注意力。然而,它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构,而且它所需要的数据技能也是必要的。

Apache Hadoop分布式文件处理系统是有好处的,而且它正在获得注意力。然而,它也有坏处。有些组织发现从Hadoop开始的话需要重新思考软件架构,而且它所需要的数据技能也是必要的。

对于一些人来说,Hadoop的批处理模型的一个问题是,它估计在突增数据采集之间的进行批处理时会有宕机的时间。这是许多企业都的情况,当他们在本地操作,或者在白天有大量事务,但很少在晚上(如果有的话)。如果夜间窗口足够大可以处理前一天积累的数据,那么一切都会顺利。虽然对于一些企业,窗口的停机时间是小或不存在的,甚至使用Hadoop的高性能的处理,他们仍然在一天内得到的数据比他们可以在24内小时处理的要多。

对于可接受小窗口的组织,添加基于数据处理组件的方法可能有帮助,GigaSpaces的***技术官Nati Shalom在最近的一篇关于使用Hadoop更快的博客中写到。通过不断地处理传入的数据转化成有用的包和删除那些不需要企业处理(或再加工)的静态数据,可以显著加速他们的大数据的批处理过程。

责任编辑:王程程 来源: 中云网
相关推荐

2015-03-30 10:48:17

大数据大数据处理Hadoop

2012-09-06 09:36:17

谷歌NatiShalom数据处理

2013-12-30 15:53:35

数据处理华为闪存

2011-12-08 09:56:14

Hadoop

2012-05-31 14:37:10

Hadoop大数据

2018-01-31 21:26:48

HadoopSparkStream大数据

2011-09-01 15:12:43

SQL ServerHadoop

2015-05-05 11:18:18

大数据Hadoop技术处理

2021-07-17 22:57:07

开发框架工具

2011-08-19 15:42:12

Hadoop瓶颈数据处理

2017-05-11 11:00:11

大数据Hadoop数据处理

2018-01-22 08:33:28

SparkHadoop计算

2017-05-05 09:53:34

Hadoop大数据处理

2023-09-27 15:34:48

数据编程

2022-01-26 09:00:00

数据库SnowparkSQL

2013-12-30 10:40:12

大数据处理大数据Hadoop

2013-12-27 16:15:11

Hadoop大数据处理

2017-05-11 17:36:50

2012-09-11 09:16:52

Hadoop

2023-07-12 12:02:06

WOT大数据流式数据湖
点赞
收藏

51CTO技术栈公众号