什么是 RDD
之间的依赖关系?
-
什么是关系(依赖关系) ?
从算子视角上来看,
splitRDD
通过map
算子得到了tupleRDD
, 所以splitRDD
和tupleRDD
之间的关系是map
但是仅仅这样说, 会不够全面, 从细节上来看,
RDD
只是数据和关于数据的计算, 而具体执行这种计算得出结果的是一个神秘的其它组件, 所以, 这两个RDD
的关系可以表示为splitRDD
的数据通过map
操作, 被传入tupleRDD
, 这是它们之间更细化的关系但是
RDD
这个概念本身并不是数据容器, 数据真正应该存放的地方是RDD
的分区, 所以如果把视角放在数据这一层面上的话, 直接讲这两个 RDD 之间有关系是不科学的, 应该从这两个 RDD 的分区之间的关系来讨论它们之间的关系 -
那这些分区之间是什么关系?
如果仅仅说
splitRDD
和tupleRDD
之间的话, 那它们的分区之间就是一对一的关系但是
tupleRDD
到reduceRDD
呢?tupleRDD
通过算子reduceByKey
生成reduceRDD
, 而这个算子是一个Shuffle
操作,Shuffle
操作的两个RDD
的分区之间并不是一对一,reduceByKey
的一个分区对应tupleRDD
的多个分区
reduceByKey
算子会生成 ShuffledRDD
reduceByKey
是由算子 combineByKey
来实现的, combineByKey
内部会创建 ShuffledRDD
返回, 具体的代码请大家通过 IDEA
来进行查看, 此处不再截图, 而整个 reduceByKey
操作大致如下过程
去掉两个 reducer
端的分区, 只留下一个的话, 如下