血缘和宽窄依赖
1.血缘
比如RDD2基于RDD1。
rdd2=rdd1.flatmap(word=>word.split(" "))
这就是rdd2 依赖rdd1.依赖是rdd之间的关系。某个rdd从数据源获取数据并不是依赖。
同时还存在间接依赖的情况,比如rdd3=rdd2.xxx。则rdd3间接依赖rdd1
需要注意的是,rdd不存储数据,如果rdd1没缓存,则rdd2调用时,rdd1需重新计算后给其调用。
多个连续的依赖关系称之为血缘。
2.宽窄依赖
假设rdd1有俩分区,rdd2也有俩分区。
窄依赖:
rdd1分区一有,a,b两条数据。分区上task跑完后,rdd2分区一也有a,b两条数据,这就是窄依赖
宽依赖:
rdd1分区1有a,b,分区2有c,d。 shuffle后,rdd2分区一有a,c。分区二有b。d
也就是说分区数没变,但是每个分区数据变了。同时新分区数据来自多个旧分区。
3.阶段任务
application:每初始话一个sparkcontext就生成一个application
job:一个action生成一个job
stage:stage是shuffle(宽依赖)数加1.同时通过shuffle来划分stage
task:一个stage阶段中,最后一个rdd的分区数就是task个数。
app ->job->stage->task
每一层都是一对N的关系。