- 博客(10)
- 收藏
- 关注
原创 Spark Streaming的Transformation、Action、Input和Output源码图解(第24课)
本文主要以图解方式大致的勾勒DStreamGraph、DStream、输入流、输出流大致的转换关系
2016-06-14 23:19:30
522
原创 Spark Streaming初始化和关闭源码图解(第23课)
本期重点: 1、Spark Streaming初始化 2、Spark Streaming运行结束关闭源码分析 我们以SparkStreaming的wordcount小程序为例解析源码内幕:/** * StreamingContext初始化 * sparkConf可以设置很多参数,包括appname、master信息、ExecutorEnv(executor
2016-06-09 17:27:18
700
原创 RDD生成全生命周期彻底研究和思考(第八篇)
DStream是RDD的模板,每隔一个batchInterval会根据DStream模板生成一个对应的RDD,DStream实际上本身就是RDD的集合,只不过加上了时间的维度,我们从DStream中的generatedRDDs数据结构中也能看出这一点: // RDDs generated, marked as private[streaming] so that testsuites can acc
2016-05-23 21:34:18
572
原创 JobScheduler内幕实现和深度思考(第七篇)
接着上一节我们看到了JobGenerator.generateJobs()方法:private def generateJobs(time: Time) { // Set the SparkEnv in this thread, so that job generation code can access the environment // Example: BlockRDDs a
2016-05-22 15:44:52
1004
原创 解密SparkStreaming运行机制和架构进阶之Job和容错(第三篇)
本期要点: 1、探讨Spark Streaming Job架构和运行机制 2、探讨Spark Streaming 容错机制
2016-05-07 10:47:27
1762
原创 解密SparkStreaming运行机制和架构(第二篇)
本期内容:a. 简单回顾并补充第一期部分内容 b. 解密Spark Streaming运行机制 c. 解密Spark Streaming架构1、简单回顾第一期部分内容 a、在第一期中我们通过一个另类实验的方式来理解SparkStreaming本质,在上一节中我们可以看到在SparkStreaming启动运行中,其实启动了很多Job,这些Job主要分两个层面的:1、围绕每个
2016-05-06 23:07:22
428
原创 解密SparkStreaming另类实验及SparkStreaming本质解析(第一篇)
本期亮点: 通过SparkStreaming在线另类实验瞬间理解SparkStreaming运行本质SparkStreaming背景介绍 当今社会处于一个大数据的时代,而SparkStreaming是Spark Code之上的一个流式计算子框架,数据的流式处理对大数据业务公司重要性是不言而喻的,应用场景如:通过大数据分析得到网上最新最热的热点词汇、电商网站给用户推荐目前最热卖的商品
2016-05-03 18:34:58
1135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅