1、spark只是一个计算引擎,可以通过多种语言与其交互,我选择的是python
2、熟练python编程基础
3、查看官网文档
- http://spark.apache.org/docs/latest/quick-start.html
- http://spark.apache.org/docs/latest/api/python/index.html
4、python是通过各种第三方类库与spark交互:如pyspark
5、不管是sparkCore,sparkSQL,sparkStreaming等,都是通过pyspark类库去操作各个模块下的类及其方法,生成各类spark对象,如SparkSession,SparkContext等