Spark reduceByKey 与 groupByKey 的区别

最新推荐文章于 2021-11-26 09:54:46 发布

哈瑞辰

最新推荐文章于 2021-11-26 09:54:46 发布

阅读量143

点赞数

分类专栏： Spark 面经文章标签： spark

本文链接：https://blog.csdn.net/weixin_46376562/article/details/119559953

版权

Spark 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

面经

11 篇文章 0 订阅

订阅专栏

Spark reduceByKey 与 groupByKey 的区别

从 shuffle 的角度：

reduceByKey 和 groupByKey 都存在 shuffle 的操作，

但是 reduceByKey 可以在 shuffle 前对分区内相同 key 的数据进行预聚合（combine）功能，这样会减少落盘的数据量，

而 groupByKey 只是进行分组，不存在数据量减少的问题，

reduceByKey 性能比较高。

从功能的角度：

reduceByKey 其实包含分组和聚合的功能。

GroupByKey 只能分组，不能聚合，

所以在分组聚合的场合下，推荐使用 reduceByKey，

如果仅仅是分组而不需要聚合，那么还是只能使用 groupByKey。

图解

reduceByKey
在这里插入图片描述

groupByKey
在这里插入图片描述

代码

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object ReduceByKey_GroupByKey {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("ReduceByKey_GroupByKey")
    val context = new SparkContext(conf)

    val dataRDD = context.makeRDD(List(("a", 1), ("a", 1), ("b", 1)))

    val resultRDD1: RDD[(String, Int)] = dataRDD.reduceByKey(_ + _)
    val resultRDD2: RDD[(String, Iterable[Int])] = dataRDD.groupByKey()

    resultRDD1.foreach(println)
    /**
     * (b,1)
     * (a,2)
     */
    
    resultRDD2.foreach(println)
    /**
     * (b,CompactBuffer(1))
     * (a,CompactBuffer(1, 1))
     */

    val resultRDD21: RDD[(String, Int)] = resultRDD2.map(a => (a._1, a._2.sum))

    resultRDD21.foreach(println)
    /**
     * (b,1)
     * (a,2)
     */

    context.stop()
  }

}

哈瑞辰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark reduceByKey 与 groupByKey 的区别

Spark reduceByKey 与 groupByKey 的区别从 shuffle 的角度：reduceByKey 和 groupByKey 都存在 shuffle 的操作，但是 reduceByKey 可以在 shuffle 前对分区内相同 key 的数据进行预聚合（combine）功能，这样会减少落盘的数据量，而 groupByKey 只是进行分组，不存在数据量减少的问题，reduceByKey 性能比较高。从功能的角度：reduceByKey 其实包含分组和聚合的功能。Gr
复制链接

扫一扫