spark大数据
文章平均质量分 74
xiaojun220
这个作者很懒,什么都没留下…
展开
-
RDD生成全生命周期彻底研究和思考(第八篇)
DStream是RDD的模板,每隔一个batchInterval会根据DStream模板生成一个对应的RDD,DStream实际上本身就是RDD的集合,只不过加上了时间的维度,我们从DStream中的generatedRDDs数据结构中也能看出这一点: // RDDs generated, marked as private[streaming] so that testsuites can acc原创 2016-05-23 21:34:18 · 498 阅读 · 0 评论 -
Spark Streaming初始化和关闭源码图解(第23课)
本期重点: 1、Spark Streaming初始化 2、Spark Streaming运行结束关闭源码分析 我们以SparkStreaming的wordcount小程序为例解析源码内幕:/** * StreamingContext初始化 * sparkConf可以设置很多参数,包括appname、master信息、ExecutorEnv(executor原创 2016-06-09 17:27:18 · 613 阅读 · 0 评论 -
JobScheduler内幕实现和深度思考(第七篇)
接着上一节我们看到了JobGenerator.generateJobs()方法:private def generateJobs(time: Time) { // Set the SparkEnv in this thread, so that job generation code can access the environment // Example: BlockRDDs a原创 2016-05-22 15:44:52 · 885 阅读 · 0 评论 -
Job动态生成和深度思考(第六篇)
**本期讨论重点: Job动态生成**原创 2016-05-18 09:30:39 · 592 阅读 · 0 评论 -
贯通Spark Streaming流计算框架的运行源码(第五篇)
本期内容: 基于简单案例贯通Spark Streaming的运行源码原创 2016-05-08 13:05:46 · 621 阅读 · 0 评论 -
探讨Spark Streaming的事务处理(第四篇)
本期主题: 1. Exactly Once 2. 输出不重复原创 2016-05-07 14:57:19 · 1509 阅读 · 0 评论 -
解密SparkStreaming运行机制和架构进阶之Job和容错(第三篇)
本期要点: 1、探讨Spark Streaming Job架构和运行机制 2、探讨Spark Streaming 容错机制原创 2016-05-07 10:47:27 · 1682 阅读 · 0 评论 -
解密SparkStreaming运行机制和架构(第二篇)
本期内容:a. 简单回顾并补充第一期部分内容 b. 解密Spark Streaming运行机制 c. 解密Spark Streaming架构1、简单回顾第一期部分内容 a、在第一期中我们通过一个另类实验的方式来理解SparkStreaming本质,在上一节中我们可以看到在SparkStreaming启动运行中,其实启动了很多Job,这些Job主要分两个层面的:1、围绕每个原创 2016-05-06 23:07:22 · 375 阅读 · 0 评论 -
解密SparkStreaming另类实验及SparkStreaming本质解析(第一篇)
本期亮点: 通过SparkStreaming在线另类实验瞬间理解SparkStreaming运行本质SparkStreaming背景介绍 当今社会处于一个大数据的时代,而SparkStreaming是Spark Code之上的一个流式计算子框架,数据的流式处理对大数据业务公司重要性是不言而喻的,应用场景如:通过大数据分析得到网上最新最热的热点词汇、电商网站给用户推荐目前最热卖的商品原创 2016-05-03 18:34:58 · 1057 阅读 · 0 评论 -
Spark Streaming的Transformation、Action、Input和Output源码图解(第24课)
本文主要以图解方式大致的勾勒DStreamGraph、DStream、输入流、输出流大致的转换关系原创 2016-06-14 23:19:30 · 446 阅读 · 0 评论