浅析 Spark 中 Key-Value 类型的 RDD

最新推荐文章于 2024-01-09 11:44:23 发布

LDyyyyyy6

最新推荐文章于 2024-01-09 11:44:23 发布

阅读量487

点赞数 1

文章标签： spark big data scala

本文链接：https://blog.csdn.net/weixin_48649930/article/details/121906383

版权

本文详细解析了 Spark 中 Key-Value 类型的 RDD 操作，包括 partitionBy、reduceByKey、groupByKey、aggregateByKey、foldByKey 和 combineByKey。重点介绍了它们的功能、区别及优化策略，如 reduceByKey 在 shuffle 前的预聚合，以及 aggregateByKey 的分区内和分区间计算规则。此外，还提到了 sortByKey、join、leftOuterJoin 和 cogroup 等相关操作。

摘要由CSDN通过智能技术生成

1.partitionBy

1）函数签名

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

2）函数说明
将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner
注意：要将 rdd 转换为 Key-Value 元组类型，才能调用 partitionBy

import org.apache.spark.{
   HashPartitioner, SparkConf, SparkContext}

object TestRDD {
   
  def main(args: Array[String]): Unit = {
   

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(1,2,3,4))

    rdd.map((_, 1))
      .partitionBy(new HashPartitioner(2))
      .saveAsTextFile("output")

    sc.stop
  }
}

结果为 output 目录下生成两个文件 part-00000 和 part-00001，内容分别为
（2，1），（4，1）和（1，1），（3，1）
3）HashPartitioner
底层核心源码如下：
在这里插入图片描述

4）如果重分区的分区器和当前 RDD 的分区器相同？
分区前，会首先判断重分区的分区器和当前 RDD 分区器是否相同（类型，分区数量），如果相同，不会重新分区
5）Spark 还有其他分区器
HashPartitioner，RangePartitioner，PythonPartitioner
6）可以自定义分区器进行数据分区

2.reduceByKey

1）函数签名

def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

2）函数说明
可以将数据按照相同的 Key 对 Value 进行聚合

import org.apache.spark.{
   SparkConf, SparkContext}

object TestRDD {
   
  def main(args: Array[String]): Unit = {
   

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(
      ("a", 1), ("a", 2), ("a", 3), ("b", 4)
    ))

    rdd.reduceByKey(_ + _)
      .collect.foreach(println)

    sc.stop
  }
}

输出结果为（a，6）（b，4）
说明：reduceByKey 中如果 Key 的数据只有一个，是不会参与运算的

3.groupByKey

1）函数签名

def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])