aggregate 是一个聚合算子 可以用来 求和 求平均数据等
//多个分区
ArrayList<Integer> list = new ArrayList<Integer>();
list.add(1);
list.add(2);
list.add(3);
list.add(4);
JavaRDD<Integer> parallelize = sc.parallelize(list,2);
Tuple2<Integer, Integer> aggregate = parallelize.aggregate(new Tuple2<Integer, Integer>(0, 0), new Function2<Tuple2<Integer, Integer>, Integer, Tuple2<Integer, Integer>>() {
//用于聚合一个分区的中的数据
@Override
public Tuple2<Integer, Integer> call(Tuple2<Integer, Integer> x, Integer integer) throws Exception {
return new Tuple2<Integer, Integer>(x._1 + integer, x._2 + 1);
}
}, new Function2<Tuple2<Integer