数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。
文件格式分为:Text文件
、Sequence文件以及Object文件;
文件系统分为:本地文件系统、HDFS
以及数据库。
文件类数据读取与保存
Text文件
1)基本语法
(1)数据读取:textFile(String)
(2)数据保存:saveAsTextFile(String)
2)代码实现
object Operate_Text {
def main(args: Array[String]): Unit = {
//1.创建SparkConf并设置App名称
val conf: SparkConf =
new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")
//2.创建SparkContext,该对象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 读取输入文件
val inputRDD: RDD[String] = sc.textFile("input/1.txt")
//3.2 保存数据
inputRDD.saveAsTextFile("textFile")
//4.关闭连接
sc.stop()
}
}
4)注意:如果是集群路径:hdfs://hadoop102:8020/input/1.txt
Sequence文件
SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中,可以调用sequenceFilekeyClass, valueClass。
1)代码实现
object Operate_Sequence {
def main(args: Array[String]): Unit = {
//1.创建SparkConf并设置App名称
val conf: SparkConf =
new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")
//2.创建SparkContext,该对象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 创建rdd
val dataRDD: RDD[(Int, Int)] = sc.makeRDD(Array((1,2),(3,4),(5,6)))
//3.2 保存数据为SequenceFile
dataRDD.saveAsSequenceFile("seqFile")
//3.3 读取SequenceFile文件
sc.sequenceFile[Int,Int]("seqFile").collect().foreach(println)
//4.关闭连接
sc.stop()
}
}
2)注意:SequenceFile文件只针对PairRDD
Object对象文件
对象文件是将对象序列化后保存的文件,采用hadoop的序列化机制。可以通过objectFile[k,v](path)
函数接收一个路径,读取对象文件,返回对应的RDD,也可以通过调用saveAsObjectFile()
实现对对象文件的输出。因为要序列化所以要指定类型。
1)代码实现
object Operate_Object {
def main(args: Array[String]): Unit = {
//1.创建SparkConf并设置App名称
val conf: SparkConf =
new SparkConf().setAppName("SparkCoreTest").setMaster("local[1]")
//2.创建SparkContext,该对象是提交Spark App的入口
val sc: SparkContext = new SparkContext(conf)
//3.1 创建RDD
val dataRDD: RDD[Int] = sc.makeRDD(Array(1,2,3,4),2)
//3.2 保存数据
dataRDD.saveAsObjectFile("objFile")
//3.3 读取数据
sc.objectFile[Int]("objFile").collect().foreach(println)
//4.关闭连接
sc.stop()
}
}
文件系统类数据读取与保存
Spark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持
。另外,由于Hadoop的API有新旧两个版本,所以Spark为了能够兼容Hadoop所有的版本,也提供了两套创建操作接口。如TextInputFormat,新旧两个版本所引用分别是org.apache.hadoop.mapred.InputFormat、org.apache.hadoop.mapreduce.InputFormat(NewInputFormat)