【Spark Core】【RDD】【09】文件读取与保存

败给你的黑色幽默丶

已于 2022-02-27 21:55:33 修改

阅读量203

点赞数

分类专栏： # Spark 文章标签： spark scala big data

于 2021-10-10 22:07:45 首次发布

本文链接：https://blog.csdn.net/weixin_43589563/article/details/120693354

版权

Spark 专栏收录该内容

25 篇文章 1 订阅

订阅专栏

Spark的数据读取及数据保存可以从两个维度来作区分：

文件格式
文件格式分为：text文件、csv文件、sequence文件以及Object文件；
文件系统。
文件系统分为：本地文件系统、HDFS、HBASE以及数据库。

1.从text文件读取数据，和写到text文件中

// 读取输入文件
val inputRDD: RDD[String] = sc.textFile("input/1.txt")

// 保存数据
inputRDD.saveAsTextFile("output")

一个分区对应一个文件

2.sequence文件

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。
在SparkContext中，可以调用sequenceFile[keyClass, valueClass](path)。
只能用于KV类型的RDD

// 保存数据为SequenceFile
dataRDD.saveAsSequenceFile("output")

// 读取SequenceFile文件
sc.sequenceFile[Int,Int]("output").collect().foreach(println)

泛型是保存的时候数据的类型

3.object对象文件
对象文件是将对象序列化后保存的文件，采用Java的序列化机制。
可以通过objectFile[T: ClassTag](path)函数接收一个路径，读取对象文件，返回对应的RDD，也可以通过调用saveAsObjectFile()实现对对象文件的输出。因为是序列化所以要指定类型。

// 保存数据
dataRDD.saveAsObjectFile("output")

// 读取数据
sc.objectFile[Int]("output").collect().foreach(println)

泛型是保存的时候数据的类型

败给你的黑色幽默丶

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Spark Core】【RDD】【09】文件读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式文件格式分为：text文件、csv文件、sequence文件以及Object文件；文件系统。文件系统分为：本地文件系统、HDFS、HBASE以及数据库。1.从text文件读取数据，和写到text文件中// 读取输入文件val inputRDD: RDD[String] = sc.textFile("input/1.txt")// 保存数据inputRDD.saveAsTextFile("output")一个分区对应一个
复制链接

扫一扫