spark-streaming
文章平均质量分 56
xwc35047
时间有限,但做于自己的无限。(公众号:水木之椿)
展开
-
Spark streaming 作业需要注意的问题
根据实践,本文不断更新中。1、java.lang.OutOfMemoryError: GC overhead limit exceeded 分析:因为streaming是长进程服务,如果当初分配堆太小,运行很长时间后会出现GC overhead limit exceeded问题,查看driver进程gc信息发现老年代使用率达到99.6%,故处理方法是提高driver堆大小,同时提高老年代大小。原创 2017-08-08 17:21:13 · 1080 阅读 · 0 评论 -
spark checkpoint机制简述
本文主要简述spark checkpoint机制,快速把握checkpoint机制的来龙去脉,关于源码方面可以看参考文章。1、Spark core的checkpoint1)为什么checkpoint?分布式计算中难免因为网络,存储等原因出现计算失败的情况,RDD中的lineage信息常用来在task失败后重计算使用,为了防止计算失败后从头开始计算造成的大量开销,RDD会chec...原创 2017-11-02 16:56:28 · 4356 阅读 · 0 评论 -
Spark streaming 执行流程源码图
该图主要是笔者准备硕士毕业论文时基于Spark 1.5 所画,新版本Spark 2.X应该有所变化,但大体流程应该相似,可作为读者学习整体框架流程参考。原创 2017-11-02 18:28:24 · 1270 阅读 · 0 评论 -
spark streaming 有趣问题汇总
1. 关于spark.streaming.concurrent.job参数的问题1)当参数环境:6个executor,kafka topic 有3个partition,spark.streaming.concurrent.job=1 时 则:只有3个exevutor有task在跑,这个比较好理解,一个executor处理一个分区数据2)当参数环境:6个executor,kafka top原创 2017-11-14 12:13:06 · 1750 阅读 · 0 评论