浅析 Spark 中 Key-Value 类型的 RDD

本文详细解析了 Spark 中 Key-Value 类型的 RDD 操作,包括 partitionBy、reduceByKey、groupByKey、aggregateByKey、foldByKey 和 combineByKey。重点介绍了它们的功能、区别及优化策略,如 reduceByKey 在 shuffle 前的预聚合,以及 aggregateByKey 的分区内和分区间计算规则。此外,还提到了 sortByKey、join、leftOuterJoin 和 cogroup 等相关操作。
摘要由CSDN通过智能技术生成

1.partitionBy

1)函数签名

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

2)函数说明
将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner
注意:要将 rdd 转换为 Key-Value 元组类型,才能调用 partitionBy

import org.apache.spark.{
   HashPartitioner, SparkConf, SparkContext}

object TestRDD {
   
  def main(args: Array[String]): Unit = {
   

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(1,2,3,4))

    rdd.map((_, 1))
      .partitionBy(new HashPartitioner(2))
      .saveAsTextFile("output")

    sc.stop
  }
}

结果为 output 目录下生成两个文件 part-00000 和 part-00001,内容分别为
(2,1),(4,1)和(1,1),(3,1)
3)HashPartitioner
底层核心源码如下:
在这里插入图片描述
在这里插入图片描述
4)如果重分区的分区器和当前 RDD 的分区器相同?
分区前,会首先判断 重分区的分区器和当前 RDD 分区器是否相同(类型,分区数量),如果相同,不会重新分区
5)Spark 还有其他分区器
HashPartitioner,RangePartitioner,PythonPartitioner
6)可以自定义分区器进行数据分区

2.reduceByKey

1)函数签名

def reduceByKey(func: (V, V) => V): RDD[(K, V)]
def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

2)函数说明
可以将数据按照相同的 Key 对 Value 进行聚合

import org.apache.spark.{
   SparkConf, SparkContext}

object TestRDD {
   
  def main(args: Array[String]): Unit = {
   

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    val rdd = sc.makeRDD(List(
      ("a", 1), ("a", 2), ("a", 3), ("b", 4)
    ))

    rdd.reduceByKey(_ + _)
      .collect.foreach(println)

    sc.stop
  }
}

输出结果为(a,6)(b,4)
说明:reduceByKey 中如果 Key 的数据只有一个,是不会参与运算的

3.groupByKey

1)函数签名

def groupByKey(): RDD[(K, Iterable[V])]
def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]
def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值