spark的paireRdd的转换操作aggregateByKey(zoreValue)(SeqOp(),CombOp)

object Demo {

  def main(args: Array[String]): Unit = {
    val conf = new ConfigProperties("xxx") // 测试
    val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试
    val sc = new SparkContext(sparkConf)
    val rdd = sc.parallelize(List((1, 3),(1,5),(2,3),(3,8),(4,2),(4,3),(5,9),(5,4)), 2)
    /**
      * 第一分区: (1, 3),(1,5),(2,3),(3,8)
      * 第二分区: (4,2),(4,3),(5,9),(5,4)
      * 首先SqpOp会在每个分区上执行 :初始值是 5
      * 第一个分区:
      * 5 3 (1,3) 结果5
      * 5 5 (1, 5) 结果5  // 第一分区键为1的结果是(1,5)
      * 5 3(2,3) 结果5  //第一分区键为2的结果是(2,5)
      * 5 8(3,8) 结果8  //第一分区键为3的结果是(3,8)
      * 第二分区:
      * 计算过程和第一个分区是一样的,结果是:(4,5)(5,9)
      * 然后是全局CombOp处理合并每个分区的结果,返回的是一个RDD,
      * (1.5) (2,5)(3,8) (4,5) (5,9)
      *
      * 1.与aggregate不同的是aggregateByKey是pairRDD的转换操作,
      * 最终只需要合并每个分区键相同的结果即可,而不是aggregate
      * 合并最终的结果是要对初始值进行处理的,而且不同的是aggregate
      * 返回的是一个非RDD的结果值,aggregate是RDD的行动操作。
      * 2.需要注意的是aggregate()SeqOp和CombOp都要对初始值做处理,
      * 而aggregateByKey()的combOp是对每个分区的键相同的进行合并,
      * SeqOp的操作是相同的,都是对每个分区的相关操作。
      *
      * 运行结果是:
      * 成功标识; (1,5)
      * 成功标识; (4,5)
      * 成功标识; (2,5)
      * 成功标识; (3,8)
      * 成功标识; (5,9)
      */
    val value = rdd.aggregateByKey(5)(seqOp(_,_),comb(_,_))
    value.foreach(data => println("成功标识; " + data))
  }

  def seqOp(a:Int, b:Int):Int={
    println("SeqOp: " + a + "\t" + b )
    val result = math.max(a,b)
    result
  }

  def comb(a: Int, b:Int):Int  ={
    println("Comb: " + a + "\t" + b)
    val result = a+b
    result
  }
}
©️2020 CSDN 皮肤主题: 创作都市 设计师:CSDN官方博客 返回首页