一些常用的Spark对象
前言
在PySpark中调用Scala/Java代码时,我们会遇到一些负载的对象需要传递,例如一些spark对象。在环境之间(Python / Java)传递时,我们必须将Spark对象显式地包装/提取到java对象中。
下面是一些常用的Spark对象。
一些常用的Spark对象
SparkContext
如果你的Scala代码需要访问SparkContext(sc),则你的python代码必须传递sc._jsc
,并且Scala方法应该接收JavaSparkContext参数并将其解压缩到Scala SparkContext。
import org.apache.spark.api.java.JavaSparkContext
def method(jsc: JavaSparkContext) =