PySpark学习笔记-数据读取与保存

最新推荐文章于 2024-08-30 22:55:34 发布

Sun_Sherry

最新推荐文章于 2024-08-30 22:55:34 发布

阅读量7.1k

点赞数 1

文章标签： PySpark

本文链接：https://blog.csdn.net/yeshang_lady/article/details/89671029

版权

1.常见的读取数据源

文件格式和文件系统。对于存储在本地文件系统或分布式文件系统（比如HDFS）中的数据，Spark可以访问很多种不同的文件格式。包括文本文件、JSON、SequenceFile、以及protocol buffer。
Spark SQL中的结构化数据源。
数据库和键值存储。Spark自带的库以及一些第三方库，可以用来连接HBase、JDBC源。

格式名称	结构化	备注
文件文件	无结构	普通的文本文件，每行一条记录
JSON	半结构化	基于文本的、半结构化；大多数库要求每行一条记录
CSV	是	通常在电子表格应用中使用使用
SequenceFiles	是	用于键值对的常见Hadoop文件格式
Protocol buffers	是	一种快速，节约空间的跨语言格式
对象文件	是	用来将Spark作业中的数据存储下来让共享的代码读取

2.文件保存

from pyspark import SparkContext,SparkConf
if __name__ == '__main__':
    conf=SparkConf().setAppName("save file").setMaster("local")
    sc=SparkContext(conf=conf)
    rdd=sc.parallelize(range(1,1000))
    rdd.saveAsTextFile("new_rdd")

saveAsTextFile()接受一个路径，并将RDD中的内容都输入到路径对应的文件中。Spark传入的路径将作为目录对待，会在那个文件目录下输出多个文件。这样，Spark就可以从多个节点上并行输出了。但是这个方法中，不能控制数据的哪一个部分输出到哪个文件中。但是个人认为这种方式保存文件相当不友好。

3.pyspark.sql读取保存文件

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
import sys
if __name__ == '__main__':
    conf=SparkConf().setAppName("save file").setMaster("local")
    sc=SparkContext(conf=conf)
    rdd=sc.textFile('dict.txt',2).map(lambda x:x.strip('\n').split())
    spark=SparkSession.builder.appName("to json").getOrCreate()
    df=spark.createDataFrame(rdd,['id','freq','label'])
    df.write.csv('data_tocsv',mode='overwrite')
    df.write.json('dict_tojson',mode='overwrite')
    df.write.parquet('dict_toparquet',mode='overwrite')
    df.write.saveAsTable("dict_totabel")

由于目前这台电脑上的Spark版本是2.3，df.write.csv（）这些方法里都没有encoding参数（最新2.4版本已经有了），直接打开文件的话可能看到中文乱码，用notepad是可以看到正确的中文字符的。