spark的paireRdd的转换操作aggregateByKey（zoreValue）（SeqOp(),CombOp）

最新推荐文章于 2023-04-07 10:21:30 发布

两人走

最新推荐文章于 2023-04-07 10:21:30 发布

阅读量193

点赞数

分类专栏： spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/weixin_43862280/article/details/109304650

版权

spark 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

object Demo {

  def main(args: Array[String]): Unit = {
    val conf = new ConfigProperties("xxx") // 测试
    val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试
    val sc = new SparkContext(sparkConf)
    val rdd = sc.parallelize(List((1, 3),(1,5),(2,3),(3,8),(4,2),(4,3),(5,9),(5,4)), 2)
    /**
      * 第一分区： (1, 3),(1,5),(2,3),(3,8)
      * 第二分区： (4,2),(4,3),(5,9),(5,4)
      * 首先SqpOp会在每个分区上执行 ：初始值是 5
      * 第一个分区：
      * 5 3 (1,3) 结果5
      * 5 5 (1, 5) 结果5  // 第一分区键为1的结果是(1,5)
      * 5 3（2，3） 结果5  //第一分区键为2的结果是（2，5）
      * 5 8（3，8） 结果8  //第一分区键为3的结果是（3，8）
      * 第二分区：
      * 计算过程和第一个分区是一样的,结果是：（4，5）（5，9）
      * 然后是全局CombOp处理合并每个分区的结果，返回的是一个RDD，
      * （1.5） （2，5）（3，8） （4，5） （5，9）
      *
      * 1.与aggregate不同的是aggregateByKey是pairRDD的转换操作，
      * 最终只需要合并每个分区键相同的结果即可，而不是aggregate
      * 合并最终的结果是要对初始值进行处理的，而且不同的是aggregate
      * 返回的是一个非RDD的结果值，aggregate是RDD的行动操作。
      * 2.需要注意的是aggregate（）SeqOp和CombOp都要对初始值做处理，
      * 而aggregateByKey()的combOp是对每个分区的键相同的进行合并,
      * SeqOp的操作是相同的，都是对每个分区的相关操作。
      *
      * 运行结果是：
      * 成功标识; (1,5)
      * 成功标识; (4,5)
      * 成功标识; (2,5)
      * 成功标识; (3,8)
      * 成功标识; (5,9)
      */
    val value = rdd.aggregateByKey(5)(seqOp(_,_),comb(_,_))
    value.foreach(data => println("成功标识; " + data))
  }

  def seqOp(a:Int, b:Int):Int={
    println("SeqOp: " + a + "\t" + b )
    val result = math.max(a,b)
    result
  }

  def comb(a: Int, b:Int):Int  ={
    println("Comb: " + a + "\t" + b)
    val result = a+b
    result
  }
}

两人走

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark的paireRdd的转换操作aggregateByKey（zoreValue）（SeqOp(),CombOp）

object Demo { def main(args: Array[String]): Unit = { val conf = new ConfigProperties("xxx") // 测试 val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试 val sc = new SparkContext(sparkConf) val rdd = sc.parallel
复制链接

扫一扫