spark 使用aggregateByKey 代替groupbyKey

最新推荐文章于 2022-06-11 21:34:40 发布

落鱼...

最新推荐文章于 2022-06-11 21:34:40 发布

阅读量1.8k

点赞数 1

本文链接：https://blog.csdn.net/yumingzhu1/article/details/85340517

版权

性能调优中有个方案，叫使用 aggregateBykey 代替 groupbykey，为啥呢？

应为aggregateByKe，使用map-side预聚合的shuffle操作，相当于再map端进行了聚合的操作，相当于mapreduce 中进行combiner

介绍一下aggregateBykey这个方法

这里面一共传了三个参数，这里用到了柯里化，我分别做一下参数介绍，教不懂的同学看下怎末看方法

zeroValue ：这是传个任意类型的初始值，他的类型U你要注意, 因为你最终返回的类型也必须是这个类型U

seqOp(U,Int) : 这个方法主要是做相同key再同一个partition 的聚合操作，两个参数(U,int) 第一个参数是你开始初始值U,第二个类型是数据的value的类型，返回类型为你定义的zeroValue 的类型

combOp : 根据key 对不同分区的数据进行一个聚合操作(也就是对seqOp的结果做合并操作)，连个参数(U,U)这两个的类型都是你的 seqOp返回类型，

这些信息其实都是可以从方法的定义中得到的，注意看下我上面的截图

使用 aggregateByKey 代替groupbyKey 的demo

    val sparkSession = SparkSession.builder()
      .appName("Main")
                  .master("local")
      .getOrCreate()

    val sc = sparkSession.sparkContext
    val data=List((1,3),(1,2),(1,4),(2,3))
    val rdd=sc.parallelize(data )
    //合并不同partition中的值，a，b得数据类型为zeroValue的数据类型
    def combOp(a:List[Int],b:List[Int]):List[Int] ={
      a.:::(b)
    }
    def seqOp(a:List[Int],b:Int):List[Int]={
     a.::(b)
    }
    val aggregateByKeyRDD=rdd.aggregateByKey(List[Int]())(seqOp, combOp)
    aggregateByKeyRDD.foreach(println)
    val groupbykeyRDD=rdd.groupByKey()
    groupbykeyRDD.foreach(println)

这里是运行的结果，他们的都是一样的

落鱼...

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 使用aggregateByKey 代替groupbyKey

性能调优中有个方案，叫使用 aggregateBykey 代替 groupbykey，为啥呢？应为aggregateByKe，使用map-side预聚合的shuffle操作，相当于再map端进行了聚合的操作，相当于mapreduce 中进行combiner 介绍一下aggregateBykey这个方法这里面一共传了三个参数，这里用到了柯里化，我分别做一下...
复制链接

扫一扫