Spark算子：键值RDD转换操作(2)–groupByKey、reduceByKey、

最新推荐文章于 2023-09-23 20:25:35 发布

xuehuagongzi000

最新推荐文章于 2023-09-23 20:25:35 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/xuehuagongzi000/article/details/116241824

版权

groupByKey

def groupByKey(): RDD[(K, Iterable[V])]

def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

该函数用于将RDD[K,V]中每个K对应的V值，合并到一个集合Iterable[V]中，

参数numPartitions用于指定分区数；

参数partitioner用于指定分区函数；

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))
scala> rdd1.groupByKey().collect
res81: Array[(String, Iterable[Int])] = Array((A,CompactBuffer(0, 2)), (B,CompactBuffer(2, 1)), (C,CompactBuffer(1)))

reduceByKey

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

def reduceByKey(partitioner: Partitioner, func: (V, V) => V): RDD[(K, V)]

该函数用于将RDD[K,V]中每个K对应的V值根据映射函数来运算。

参数numPartitions用于指定分区数；

参数partitioner用于指定分区函数；

scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("C",1)))
scala> var rdd2 = rdd1.reduceByKey((x,y) => x + y)
scala> rdd2.collect
res85: Array[(String, Int)] = Array((A,2), (B,3), (C,1))

xuehuagongzi000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark算子：键值RDD转换操作(2)–groupByKey、reduceByKey、

groupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]该函数用于将RDD[K,V]中每个K对应的V值，合并到一个集合Iterable[V]中，参数numPartitions用于指定分区数；参数partit
复制链接

扫一扫