spark中reduceByKey、groupByKey、combineByKey的区别

最新推荐文章于 2022-11-02 21:08:31 发布

jwshs

最新推荐文章于 2022-11-02 21:08:31 发布

阅读量535

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/xiaohao95/article/details/89603166

版权

本文对比了Spark中reduceByKey、groupByKey和combineByKey的区别。reduceByKey在本地进行merge操作，可自定义函数；groupByKey不进行局部merge，导致传输开销大；combineByKey允许自定义创建、合并和合并中间结果的函数，优化了groupByKey的性能问题。

摘要由CSDN通过智能技术生成

reduceByKey

reduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义；

groupByKey

groupByKey也是对每个key进行操作，但只生成一个sequence，groupByKey本身不能自定义函数，需要先生成RDD，然后才能对此RDD通过map进行自定义函数操作

比较发现，使用groupByKey时，不会进行局部merge，会导致集群节点之间的开销很大，导致传输延时。

combineByKey

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.util.LongAccumulator
import org.apache.spark.{SparkConf, SparkContext}

import scala.collection.mutable

object Test{
	def main(args: Array[String]): Unit = {
		Logger.getLogger("org.apache.hadoop").setLev

最低0.47元/天解锁文章

jwshs

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark中reduceByKey、groupByKey、combineByKey的区别

reduceByKeyreduceByKey用于对每个key对应的多个value进行merge操作，最重要的是它能够在本地先进行merge操作，并且merge操作可以通过函数自定义；groupByKeygroupByKey也是对每个key进行操作，但只生成一个sequence，groupByKey本身不能自定义函数，需要先生成RDD，然后才能对此RDD通过map进行自定义函数操作比较发...
复制链接

扫一扫

专栏目录