import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function2;
import java.util.Arrays;
import java.util.List;
//通过并行化集合创建RDD
public class ParallelizeCollection {
public static void main(String[] args) {
//创建Sparkconf
SparkConf conf = new SparkConf()
.setAppName("ParallelizeCollection")
.setMaster("local");
//创建javaSparkContent
JavaSparkContext sc = new JavaSparkContext(conf);
//要通过并行化集合方式创建RDD,那么就调用SparkContext以及其子类的parallelize()的方法
List<Integer> numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);
JavaRDD<Integer> numberRDD = sc.parallelize(numbers);
//执行reduce算子操作
int sum = numberRDD.reduce(new Function2<Integer, Integer, Integer>() {
@Override
public Integer call(Integer num1, Integer num2) throws Exception {
return num1 + num2;
}
});
// 输出累加的和
System.out.println("1到10累加的和:" + sum);
//
}
}
java 开发spark 使用程序中的集合创建RDD
最新推荐文章于 2023-09-03 11:34:43 发布