spark streaming 高级
听风的蜗牛
专注hadoop,spark大数据,数据挖掘,机器学习。
展开
-
3.spark streaming Job 架构和容错解析
一.Spark streaming Job 架构 SparkStreaming框架会自动启动Job并每隔BatchDuration时间会自动触发Job的调用。 Spark Streaming的Job 分为两大类: 每隔BatchInterval时间片就会产生的一个个Job,这里的Job并不是Spark Core中的Job,它只是基于DStreamGraph而生成的RDD的DAG而已;...2016-05-08 18:41:57 · 134 阅读 · 0 评论 -
5.Spark Streaming流计算框架的运行流程源码分析
1 spark streaming 程序代码实例 代码如下: object OnlineTheTop3ItemForEachCategory2DB { def main(args: Array[String]){ val conf = new SparkConf() //创建SparkConf对象 //设置应用程序的名称,在程序运行的监...2016-05-11 14:11:39 · 143 阅读 · 0 评论 -
9. Spark Streaming技术内幕 : Receiver在Driver的精妙实现全生命周期彻底研究和思考...
原创文章,转载请注明:转载自 听风居士博客(http://zhou-yuefei.iteye.com/) Spark streaming 程序需要不断接收新数据,然后进行业务逻辑处理,而用于接受数据的就是Recever。显然Receiver的正常运行对应整个Spark Streaming应用程序至关重要,如果Receiver出现异常,后面的业务逻辑就无从...2016-05-23 17:14:45 · 147 阅读 · 0 评论 -
10.Spark Streaming源码分析:Receiver数据接收全过程详解
原创文章,转载请注明:转载自 听风居士博客(http://zhou-yuefei.iteye.com/) 在上一篇中介绍了Receiver的整体架构和设计原理,本篇内容主要介绍Receiver在Executor中数据接收和存储过程 一、Receiver启动过程回顾 如图,从ReceiverTracker的start方法开始,调用launchReceivers()方法,给...2016-05-26 14:22:33 · 122 阅读 · 0 评论 -
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究...
原创文章,转载请注明:转载自 听风居士博客(http://zhou-yuefei.iteye.com/) 上篇文章详细解析了Receiver不断接收数据的过程,在Receiver接收数据的过程中会将数据的元信息发送给ReceiverTracker: 本文将详细解析ReceiverTracker的的架构设计和具体实现 一、ReceiverTracker的主...2016-05-28 12:39:31 · 157 阅读 · 0 评论 -
15、Spark Streaming源码解读之No Receivers彻底思考
版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明,否则将追究法律责任。 在前几期文章里讲了带Receiver的Spark Streaming 应用的相关源码解读,但是现在开发Spark Streaming的应用越来越多的采用No Receivers(Direct Approach)的方式,No Receiver的方式的优势: 1. 更强...2016-06-03 09:07:28 · 209 阅读 · 0 评论 -
14.Spark Streaming源码解读:State管理之updateStateByKey和mapWithState解密
首先简单解释一下什么是state(状态)管理?我们以wordcount为例。每个batchInterval会计算当前batch的单词计数,那如果需要计算从流开始到目前为止的单词出现的次数,该如计算呢?SparkStreaming提供了两种方法:updateStateByKey和mapWithState 。mapWithState 是1.6版本新增功能,目前属于实验阶段。mapWithSt...2016-06-04 00:10:27 · 275 阅读 · 0 评论