pyspark读写数据等（数据处理妙招）（持续更新中……）

xiaotian127

于 2019-04-07 18:26:41 发布

阅读量1.8k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/xiaotian127/article/details/89072981

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

1、读取数据, 之后再把数据写入csv文件中

from pyspark.sql import SQLContext
from pyspark import SparkContext

sc = SparkContext()    # 只能运行一次

sqlContext = SQLContext(sc)
# 读取数据
raw_data = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('./data/train.csv')
# 写入csv文件
save_data_test.write.csv('./data/small_train.csv')