spark的paireRdd的转换操作aggregateByKey(zoreValue)(SeqOp(),CombOp)

object Demo {

  def main(args: Array[String]): Unit = {
    val conf = new ConfigProperties("xxx") // 测试
    val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试
    val sc = new SparkContext(sparkConf)
    val rdd = sc.parallelize(List((1, 3),(1,5),(2,3),(3,8),(4,2),(4,3),(5,9),(5,4)), 2)
    /**
      * 第一分区: (1, 3),(1,5),(2,3),(3,8)
      * 第二分区: (4,2),(4,3),(5,9),(5,4)
      * 首先SqpOp会在每个分区上执行 :初始值是 5
      * 第一个分区:
      * 5 3 (1,3) 结果5
      * 5 5 (1, 5) 结果5  // 第一分区键为1的结果是(1,5)
      * 5 3(2,3) 结果5  //第一分区键为2的结果是(2,5)
      * 5 8(3,8) 结果8  //第一分区键为3的结果是(3,8)
      * 第二分区:
      * 计算过程和第一个分区是一样的,结果是:(4,5)(5,9)
      * 然后是全局CombOp处理合并每个分区的结果,返回的是一个RDD,
      * (1.5) (2,5)(3,8) (4,5) (5,9)
      *
      * 1.与aggregate不同的是aggregateByKey是pairRDD的转换操作,
      * 最终只需要合并每个分区键相同的结果即可,而不是aggregate
      * 合并最终的结果是要对初始值进行处理的,而且不同的是aggregate
      * 返回的是一个非RDD的结果值,aggregate是RDD的行动操作。
      * 2.需要注意的是aggregate()SeqOp和CombOp都要对初始值做处理,
      * 而aggregateByKey()的combOp是对每个分区的键相同的进行合并,
      * SeqOp的操作是相同的,都是对每个分区的相关操作。
      *
      * 运行结果是:
      * 成功标识; (1,5)
      * 成功标识; (4,5)
      * 成功标识; (2,5)
      * 成功标识; (3,8)
      * 成功标识; (5,9)
      */
    val value = rdd.aggregateByKey(5)(seqOp(_,_),comb(_,_))
    value.foreach(data => println("成功标识; " + data))
  }

  def seqOp(a:Int, b:Int):Int={
    println("SeqOp: " + a + "\t" + b )
    val result = math.max(a,b)
    result
  }

  def comb(a: Int, b:Int):Int  ={
    println("Comb: " + a + "\t" + b)
    val result = a+b
    result
  }
}
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值