谈谈Spark与Spark-Streaming关系

大数据 Spark
spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理,侧重点在Steaming上面。

[[206214]]

spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理,侧重点在Steaming上面。我们常说的Spark-Streaming依赖了Spark Core的意思就是,实际计算的核心框架还是spark。我们还是上一张老生常谈的官方图:

从原理上看,我们将spark-streaming转变为传统的spark需要什么?

需要构建4个东西:

一个静态的 RDD DAG 的模板,来表示处理逻辑;

一个动态的工作控制器,将连续的 streaming data 切分数据片段,并按照模板复制出新的 RDD

DAG 的实例,对数据片段进行处理;

Receiver进行原始数据的产生和导入;Receiver将接收到的数据合并为数据块并存到内存或硬盘中,供后续batch RDD进行消费;对长时运行任务的保障,包括输入数据的失效后的重构,处理任务的失败后的重调。

至于上述过程具体怎么实现,我们会在spark-streaming源码分析的文章中一一解决。本文中图片文字来自于网络。

责任编辑:武晓燕 来源: oschina博客
相关推荐

2017-08-14 10:30:13

SparkSpark Strea扩容

2016-01-28 10:11:30

Spark StreaSpark大数据平台

2017-06-06 08:31:10

Spark Strea计算模型监控

2016-12-19 14:35:32

Spark Strea原理剖析数据

2018-04-09 12:25:11

2019-12-13 08:25:26

FlinkSpark Strea流数据

2016-05-11 10:29:54

Spark Strea数据清理Spark

2017-10-11 11:10:02

Spark Strea大数据流式处理

2019-10-17 09:25:56

Spark StreaPVUV

2017-09-26 09:35:22

2021-08-20 16:37:42

SparkSpark Strea

2023-10-24 20:32:40

大数据

2017-04-13 09:10:06

Spark解释关系

2020-11-11 08:55:32

SparkJava磁盘

2017-06-27 15:08:05

大数据Apache SparKafka Strea

2021-07-09 10:27:12

SparkStreaming系统

2018-10-24 09:00:26

KafkaSpark数据

2017-04-13 13:30:56

SparkSpark MLlib机器学习

2016-03-03 15:11:42

Spark Strea工作流调度器

2018-04-18 08:54:28

RDD内存Spark
点赞
收藏

51CTO技术栈公众号