reduce by key会在结果发送到reducer之前对每个mapper在本地进行merge,有点类似于MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后数据量会大幅减小,从而减小传输,保证reduce端能够快速计算结果
groupByKey只会对每一个RDD中的value值聚合成一个序列,该操作发生在reduce端
ReduceByKey和groupByKey的区别
最新推荐文章于 2022-05-04 23:32:06 发布
reduce by key会在结果发送到reducer之前对每个mapper在本地进行merge,有点类似于MapReduce中的combiner。这样做的好处在于,在map端进行一次reduce之后数据量会大幅减小,从而减小传输,保证reduce端能够快速计算结果
groupByKey只会对每一个RDD中的value值聚合成一个序列,该操作发生在reduce端