PySpark学习笔记-数据读取与保存

1.常见的读取数据源

  • 文件格式和文件系统。对于存储在本地文件系统或分布式文件系统(比如HDFS)中的数据,Spark可以访问很多种不同的文件格式。包括文本文件、JSON、SequenceFile、以及protocol buffer。
  • Spark SQL中的结构化数据源。
  • 数据库和键值存储。Spark自带的库以及一些第三方库,可以用来连接HBase、JDBC源。
格式名称结构化备注
文件文件无结构普通的文本文件,每行一条记录
JSON半结构化基于文本的、半结构化;大多数库要求每行一条记录
CSV通常在电子表格应用中使用使用
SequenceFiles用于键值对的常见Hadoop文件格式
Protocol buffers一种快速,节约空间的跨语言格式
对象文件用来将Spark作业中的数据存储下来让共享的代码读取

2.文件保存

from pyspark import SparkContext,SparkConf
if __name__ == '__main__':
    conf=SparkConf().setAppName("save file").setMaster("local")
    sc=SparkContext(conf=conf)
    rdd=sc.parallelize(range(1,1000))
    rdd.saveAsTextFile("new_rdd")

saveAsTextFile()接受一个路径,并将RDD中的内容都输入到路径对应的文件中。Spark传入的路径将作为目录对待,会在那个文件目录下输出多个文件。这样,Spark就可以从多个节点上并行输出了。但是这个方法中,不能控制数据的哪一个部分输出到哪个文件中。但是个人认为这种方式保存文件相当不友好。

3.pyspark.sql读取保存文件

from pyspark import SparkContext,SparkConf
from pyspark.sql import SparkSession
import sys
if __name__ == '__main__':
    conf=SparkConf().setAppName("save file").setMaster("local")
    sc=SparkContext(conf=conf)
    rdd=sc.textFile('dict.txt',2).map(lambda x:x.strip('\n').split())
    spark=SparkSession.builder.appName("to json").getOrCreate()
    df=spark.createDataFrame(rdd,['id','freq','label'])
    df.write.csv('data_tocsv',mode='overwrite')
    df.write.json('dict_tojson',mode='overwrite')
    df.write.parquet('dict_toparquet',mode='overwrite')
    df.write.saveAsTable("dict_totabel")

由于目前这台电脑上的Spark版本是2.3,df.write.csv()这些方法里都没有encoding参数(最新2.4版本已经有了),直接打开文件的话可能看到中文乱码,用notepad是可以看到正确的中文字符的。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《Python学习笔记》是由皮大庆编写的一本关于Python语言学习的教材。在这本书中,作者详细介绍了Python语言的基础知识、语法规则以及常用的编程技巧。 首先,作者简要介绍了Python语言的特点和优势。他提到,Python是一种易于学习和使用的编程语言,受到了广大程序员的喜爱。Python具有简洁、清晰的语法结构,使得代码可读性极高,同时也提供了丰富的库和模块,能够快速实现各种功能。 接着,作者详细讲解了Python的基本语法。他从变量、数据类型、运算符等基础知识开始,逐步介绍了条件语句、循环控制、函数、模块等高级概念。同时,作者通过大量的示例代码和实践案例,帮助读者加深对Python编程的理解和应用。 在书中,作者还特别强调了编写规范和良好的编程习惯。他从命名规范、注释风格、代码缩进等方面指导读者如何写出清晰、可读性强的Python代码。作者认为,良好的编程习惯对于提高代码质量和提高工作效率非常重要。 此外,作者还介绍了Python的常用库和模块。他提到了一些常用的库,如Numpy、Pandas、Matplotlib等。这些库在数据处理、科学计算、可视化等领域有广泛的应用,帮助读者更好地解决实际问题。 总的来说,《Python学习笔记》是一本非常实用和全面的Python学习教材。通过学习这本书,读者可以系统地学习和掌握Python编程的基础知识和高级应用技巧,为以后的编程学习和工作打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值