PySpark的存储不同格式文件

孤数不证

于 2019-12-27 10:11:51 发布

阅读量490

点赞数

本文链接：https://blog.csdn.net/weixin_43668299/article/details/103727354

版权

PySpark的存储不同格式文件，如：存储为csv格式、json格式、parquet格式、compression格式、table

from future import print_function, division
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession

启动 Spark （如果你已经启动就不需要）

spark = SparkSession.builder.master(“local[2]”).appName(“test”).enableHiveSupport().getOrCreate()
sc = spark.sparkContext

存储为csv格式

df_csv = spark.read.csv("…/data/ratings.csv", header=True)
df_csv.show()
df_csv.write.csv(’…/output/rating.csv’, header = True, mode = ‘error’) #保存数据

将文档保存在一个文件夹中

!ls -lh …/output/rating.csv #根据数量保存多个文件
!head …/output/rating.csv/part-00001-aece805c-20a7-4225-b152-40316bc8fc5e-c000.csv
df_csv.coalesce(1).write.csv(’…/output/rating2.csv’, header = True)
!ls -lh …/output/rating.csv

最低0.47元/天解锁文章

孤数不证

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PySpark的存储不同格式文件

PySpark的存储不同格式文件，如：存储为csv格式、json格式、parquet格式、compression格式、tablefrom future import print_function, divisionfrom pyspark import SparkConf, SparkContextfrom pyspark.sql import SparkSession启动 Spark （...
复制链接

扫一扫