向Spark中传递函数
前言:
.Spark 的大部分转化操作和一部分行动操作,都需要依赖用户传递的函数来计算。在支持的三种主要语言中,向 Spark 传递函数的方式略有区别。 Java 中,Spark操作需要的函数,是由作为实现了 Spark 的org.apache.spark.api.java.function 包中的任一函数接口的对象来传递的。根据不同的返回类型,定义了一些不同的接口。
标准的接口
当RDD存储的是普通对象时(非键值对),标准的接口如下图、
特殊类型的接口
在Java 中有两个专门的类 JavaDoubleRDD和 JavaPairRDD,来处理特殊类型的 RDD,这两个类还针对这些类型提供了额外的函数。这让你可以更加了解所发生的一切,但是也显得有些累赘。要构建出这些特殊类型的 RDD,需要使用特殊版本的类来替代一般使用的 Function 类。如果要从 T 类型的 RDD 创建出一个 DoubleRDD,我们就应当在映射操作中使用 DoubleFunction来替代 Function<T, Double>。
例子:用 Java 创建 DoubleRDD
JavaDoubleRDD result = rdd.mapToDouble(
new DoubleFunction<Integer>() {
public double call(Integer x) {
return (double) x * x;
}
});
System.out.println(result.mean());