object Demo {
def main(args: Array[String]): Unit = {
val conf = new ConfigProperties("xxx") // 测试
val sparkConf = new SparkConf().setAppName("app.name").setMaster("local") // 测试
val sc = new SparkContext(sparkConf)
val rdd = sc.parallelize(List((1, 3),(1,5),(2,3),(3,8),(4,2),(4,3),(5,9),(5,4)), 2)
/**
* 第一分区: (1, 3),(1,5),(2,3),(3,8)
* 第二分区: (4,2),(4,3),(5,9),(5,4)
* 首先SqpOp会在每个分区上执行 :初始值是 5
* 第一个分区:
* 5 3 (1,3) 结果5
* 5 5 (1, 5) 结果5 // 第一分区键为1的结果是(1,5)
* 5 3(2,3) 结果5 //第一分区键为2的结果是(2,5)
* 5 8(3,8) 结果8 //第一分区键为3的结果是(3,8)
* 第二分区:
* 计算过程和第一个分区是一样的,结果是:(4,5)(5,9)
* 然后是全局CombOp处理合并每个分区的结果,返回的是一个RDD,
* (1.5) (2,5)(3,8) (4,5) (5,9)
*
* 1.与aggregate不同的是aggregateByKey是pairRDD的转换操作,
* 最终只需要合并每个分区键相同的结果即可,而不是aggregate
* 合并最终的结果是要对初始值进行处理的,而且不同的是aggregate
* 返回的是一个非RDD的结果值,aggregate是RDD的行动操作。
* 2.需要注意的是aggregate()SeqOp和CombOp都要对初始值做处理,
* 而aggregateByKey()的combOp是对每个分区的键相同的进行合并,
* SeqOp的操作是相同的,都是对每个分区的相关操作。
*
* 运行结果是:
* 成功标识; (1,5)
* 成功标识; (4,5)
* 成功标识; (2,5)
* 成功标识; (3,8)
* 成功标识; (5,9)
*/
val value = rdd.aggregateByKey(5)(seqOp(_,_),comb(_,_))
value.foreach(data => println("成功标识; " + data))
}
def seqOp(a:Int, b:Int):Int={
println("SeqOp: " + a + "\t" + b )
val result = math.max(a,b)
result
}
def comb(a: Int, b:Int):Int ={
println("Comb: " + a + "\t" + b)
val result = a+b
result
}
}
spark的paireRdd的转换操作aggregateByKey(zoreValue)(SeqOp(),CombOp)
最新推荐文章于 2023-04-07 10:21:30 发布