![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkStreaming
xiaonaughty
这个作者很懒,什么都没留下…
展开
-
Spark Streaming的Exactly-One的事务处理和不重复输出彻底掌握
Spark Streaming事务处理图分析: 1. Receiver不断地接收数据,收到数据后汇报给driver,driver收到数据后为了数据安全进行checkpoint,checkpoint中有:Configuration,Block MetaData,DStreamGraph,未处理完Job和等待中的Job 2. job的执行完全基于spark core的调试模式 3. Receive原创 2016-05-20 18:05:53 · 848 阅读 · 0 评论 -
通过过滤黑名单案例对SparkStreaming 透彻理解
SparkStreaming是随着流进来数据按照时间为单位生成job,然后触发job在cluster执行的一个流式处理引擎,实质上是加上了时间维度的批处理。DStream是一个RDD的集合,对DStream的操作构成DStream Graph。本文以过滤黑名单为例,进行初步分析。过渡黑名单代码:package com.dt.spark.streamingimport org.apache.spar原创 2016-05-19 16:44:54 · 3022 阅读 · 3 评论 -
15. Spark Streaming源码解读之No Receivers彻底思考
一、官方文档翻译Streaming从Kafka中接收数据,有两种方式:1). 使用Receivers和Kafka高层次的API;2). 基于Direct API(Spark 1.3开始引入的。这两种方式有不同的编程模型,性能特点和语义担保。1. 基于Receiver方式: 这种方法通过Receiver来接收数据。Receiver是通过使用kafka的high-level Consumer API原创 2016-05-27 16:43:55 · 455 阅读 · 0 评论 -
解密SparkStreaming运行机制和架构
本文主要从五个方面来整体考虑SparkStreaming的机制和架构,如下图:图中A是action,RDD Graph中有三个Job 首先看到的是RDD的DAG,SparkStreaming在RDD的DAG的基础上加入了时间维度,而RDD的DAG依赖又叫空间维度,Dstream就是在RDD的基础上加上了时间维度,所以整个SparkStreaming就是时空维度。 空间维度:代表的RDD的原创 2016-05-20 10:09:42 · 413 阅读 · 0 评论 -
基于案例贯通Spark Streaming流计算框架的运行源码
案例代码:package com.dt.spark.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.HiveContextimport org.apache.spark.sql.types.{IntegerType, S原创 2016-05-23 18:03:06 · 365 阅读 · 0 评论 -
解密SparkStreaming运行机制和架构进阶之Job
通过运行OnlineForeachRDD2DB程序,从Job的角度来分析SparkStreaming的机制和架构,程序代码:package com.dt.spark.streamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}object OnlineF原创 2016-05-20 16:53:14 · 385 阅读 · 0 评论