spark streaming 进阶
文章平均质量分 84
听风的蜗牛
专注hadoop,spark大数据,数据挖掘,机器学习。
展开
-
Spark streaming技术内幕6 : Job动态生成原理与源码解析
原创文章,转载请注明:转载自听风居士博客(http://blog.csdn.net/zhouzx2010)Spark streaming 程序的运行过程是将DStream的操作转化成RDD的操作,Spark Streaming 和 Spark Core 的关系如下图(图片来自spark官网)Spark Streaming 会按照程序设定的时间间隔不断动态生成Job来处理原创 2016-05-24 10:27:04 · 672 阅读 · 0 评论 -
3.spark streaming Job 架构和容错解析
一.Spark streaming Job 架构SparkStreaming框架会自动启动Job并每隔BatchDuration时间会自动触发Job的调用。Spark Streaming的Job 分为两大类:每隔BatchInterval时间片就会产生的一个个Job,这里的Job并不是Spark Core中的Job,它只是基于DStreamGraph而生成的RDD的原创 2016-05-08 18:44:22 · 900 阅读 · 0 评论 -
10.Spark Streaming源码分析:Receiver数据接收全过程详解
原创文章,转载请注明:转载自 听风居士博客(http://blog.csdn.net/zhouzx2010) 在上一篇中介绍了Receiver的整体架构和设计原理,本篇内容主要介绍Receiver在Executor中数据接收和存储过程一、Receiver启动过程回顾如图,从ReceiverTracker的start方法开始,调用launchRece原创 2016-05-26 08:55:07 · 4212 阅读 · 2 评论 -
16.Spark Streaming源码解读之数据清理机制解析
原创文章,转载请注明:转载自 听风居士博客(http://blog.csdn.net/zhouzx2010)本期内容:一、Spark Streaming 数据清理总览二、Spark Streaming 数据清理过程详解三、Spark Streaming 数据清理的触发机制 Spark Streaming不像普通Spark 的应用程序,普原创 2016-07-01 14:47:24 · 2674 阅读 · 0 评论 -
14:Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密
首先简单解释一下什么是state(状态)管理?我们以wordcount为例。每个batchInterval会计算当前batch的单词计数,那如果需要计算从流开始到目前为止的单词出现的次数,该如计算呢?SparkStreaming提供了两种方法:updateStateByKey和mapWithState 。mapWithState 是1.6版本新增功能,目前属于实验阶段。mapWithState原创 2016-06-03 09:26:39 · 1191 阅读 · 0 评论 -
10.Spark Streaming源码分析:Receiver数据接收全过程详解
在上一篇中介绍了Receiver的整体架构和设计原理,本篇内容主要介绍Receiver在Executor中数据接收和存储过程一、Receiver启动过程回顾如图,从ReceiverTracker的start方法开始,调用launchRece原创 2016-05-26 09:01:11 · 477 阅读 · 0 评论 -
15、Spark Streaming源码解读之No Receivers彻底思考
在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读,但是现在开发Spark Streaming的应用越来越多的采用No Receivers(Direct Approach)的方式,No Receiver的方式的优势: 1. 更强的控制自由度 2. 语义一致性 其实No Receivers的方式更符合我们读取数据,操作数据的思路的。因为Spark原创 2016-06-02 23:23:00 · 747 阅读 · 0 评论 -
12、Spark Streaming源码解读之Executor容错安全性
一、Spark Streaming 数据安全性的考虑:Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行。所以这就涉及到一个非常重要的问题数据安全性。Spark Streaming是基于Spark Core之上的,如果能够确保数据安全可好的话,在Spark Streaming生成Job的时候里面是基于RDD,即使运行的时候出现问题,那么Spa原创 2016-05-30 09:46:50 · 606 阅读 · 0 评论 -
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
上篇文章详细解析了Receiver不断接收数据的过程,在Receiver接收数据的过程中会将数据的元信息发送给ReceiverTracker:本文将详细解析ReceiverTracker的的架构设计和具体实现原创 2016-05-28 12:32:58 · 781 阅读 · 0 评论 -
5.Spark Streaming流计算框架的运行流程源码分析
1 spark streaming 程序代码实例代码如下:object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[String]){ val conf = new SparkConf() //创建SparkConf对象 //设置应用程序的名称,在程序运原创 2016-05-12 14:16:32 · 956 阅读 · 1 评论 -
Spark Streaming源码分析之Receiver在Driver的实现全生命周期
Spark streaming 程序需要不断接收新数据,然后进行业务逻辑处理,而用于接受数据的就是Recever。显然Receiver的正常运行对应整个Spark Streaming应用程序至关重要,如果Receiver出现异常,后面的业务逻辑就无从谈起。Spark Streaming 是如何实现Receiver以保证其可靠性的,本文将结合Spark Streaming的Receiver源码实原创 2016-05-27 07:42:39 · 752 阅读 · 0 评论