Spark 数据读取与保存

最新推荐文章于 2024-06-01 08:36:22 发布

sj天问

最新推荐文章于 2024-06-01 08:36:22 发布

阅读量338

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_44314681/article/details/110825425

版权

spark 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

数据读取与保存

Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。
文件格式分为：Text文件、Sequence文件以及Object文件；
文件系统分为：本地文件系统、HDFS以及数据库。

文件类数据读取与保存

Text文件

1）基本语法
（1）数据读取：textFile(String)
（2）数据保存：saveAsTextFile(String)
2）代码实现

object Operate_Text {

    def main(args: Array[String]): Unit = {

        //1.创建SparkConf并设置App名称
        val conf: SparkConf = 
        new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")

        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc: SparkContext = new SparkContext(conf)

        //3.1 读取输入文件
        val inputRDD: RDD[String] = sc.textFile("input/1.txt")

        //3.2 保存数据
        inputRDD.saveAsTextFile("textFile")

        //4.关闭连接
        sc.stop()
    }
}

4）注意：如果是集群路径：hdfs://hadoop102:8020/input/1.txt

Sequence文件

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中，可以调用sequenceFilekeyClass, valueClass。
1）代码实现

object Operate_Sequence {

    def main(args: Array[String]): Unit = {

        //1.创建SparkConf并设置App名称
        val conf: SparkConf = 
        new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")

        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc: SparkContext = new SparkContext(conf)

        //3.1 创建rdd
        val dataRDD: RDD[(Int, Int)] = sc.makeRDD(Array((1,2),(3,4),(5,6)))

        //3.2 保存数据为SequenceFile
        dataRDD.saveAsSequenceFile("seqFile")

        //3.3 读取SequenceFile文件
        sc.sequenceFile[Int,Int]("seqFile").collect().foreach(println)

        //4.关闭连接
        sc.stop()
    }
}

2）注意：SequenceFile文件只针对PairRDD

Object对象文件

对象文件是将对象序列化后保存的文件，采用hadoop的序列化机制。可以通过objectFile[k,v](path)函数接收一个路径，读取对象文件，返回对应的RDD，也可以通过调用saveAsObjectFile()实现对对象文件的输出。因为要序列化所以要指定类型。
1）代码实现

object Operate_Object {

    def main(args: Array[String]): Unit = {

        //1.创建SparkConf并设置App名称
        val conf: SparkConf = 
        new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")

        //2.创建SparkContext，该对象是提交Spark App的入口
        val sc: SparkContext = new SparkContext(conf)

        //3.1 创建RDD
        val dataRDD: RDD[Int] = sc.makeRDD(Array(1,2,3,4),2)

        //3.2 保存数据
        dataRDD.saveAsObjectFile("objFile")

        //3.3 读取数据
        sc.objectFile[Int]("objFile").collect().foreach(println)

        //4.关闭连接
        sc.stop()
    }
}

文件系统类数据读取与保存

Spark的整个生态系统与Hadoop是完全兼容的，所以对于Hadoop所支持的文件类型或者数据库类型，Spark也同样支持。另外，由于Hadoop的API有新旧两个版本，所以Spark为了能够兼容Hadoop所有的版本，也提供了两套创建操作接口。如TextInputFormat，新旧两个版本所引用分别是org.apache.hadoop.mapred.InputFormat、org.apache.hadoop.mapreduce.InputFormat(NewInputFormat)

sj天问

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark 数据读取与保存

数据读取与保存Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS以及数据库。文件类数据读取与保存Text文件1）基本语法（1）数据读取：textFile(String)（2）数据保存：saveAsTextFile(String)2）代码实现object Operate_Text { def main(args: Array[String]): Un
复制链接

扫一扫

专栏目录