Spark 依赖关系
RDD 窄依赖
每一个父RDD 的Partition 最多被子RDD 的一个Partition 使用
filter, map, flatMap, sample, union, intersection, mapPartitions, mapPartitionsWithIndex, zip
RDD 宽依赖
多个子RDD 的Partition 会依赖同一个父RDD 的Partition
sortBy, sortByKey, reduceByKey, join, leftOuterJoin, rightOuterJoin, distinct, cogroup, repartition, groupByKey