中华石杉spark系列:宽依赖和窄依赖

宽依赖和窄依赖:

1、窄依赖:一个RDD对它的父RDD,只有简单的一对一的依赖关系,也就是说,RDD的每个partition,仅仅依赖于父RDD中的一个partition,父RDD和子RDD的partition之间的对应关系,是一对一的,这种简单的RDD之间的依赖关系被称为窄依赖。

2、宽依赖:本质就是Shuffle,也就是说,每一个父RDD的partition中的数据,都可能会传输一部分,到下一个RDD的每个partition中,此时就会出现,父RDD和子RDD的partition之间,具有交互错综复杂的关系,这种情况就叫做两个RDD之间的宽依赖,同时,它们之间发生的操作就是shuffle.

3.stage的切分是在宽依赖阶段进行的。

展开阅读全文

没有更多推荐了,返回首页