1、读取数据, 之后再把数据写入csv文件中
from pyspark.sql import SQLContext
from pyspark import SparkContext
sc = SparkContext() # 只能运行一次
sqlContext = SQLContext(sc)
# 读取数据
raw_data = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('./data/train.csv')
# 写入csv文件
save_data_test.write.csv('./data/small_train.csv')