spark中的常用算子 以图中为例
以下以代码展示
distinct 算子 去重
ArrayList<Integer> list = new ArrayList<Integer>();
list.add(1);
list.add(2);
list.add(3);
list.add(4);
list.add(3);
JavaRDD<Integer> parallelize = sc.parallelize(list);
JavaRDD<Integer> distinct = parallelize.distinct();//该算中也可以添加参数备注分区数
List<Integer> collect = distinct.collect();
for (Integer integer: collect){
System.out.println(integer);
}
结果:
4
1
3
2
union 合并算子
ArrayList<Integer> list1 = new ArrayList<Integer>();
list1.add(1);
list1.add(2);
list1.add