Spark SQL操作外部数据源(含Spark和Hive集成)

最新推荐文章于 2022-12-09 11:03:48 发布

小财迷，嘻嘻

最新推荐文章于 2022-12-09 11:03:48 发布

阅读量301

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/weixin_48185778/article/details/109722754

版权

1、简介

1.1 多数据源支持

在这里插入图片描述

1.2 读数据格式

所有读取 API 遵循以下调用格式：

// 格式
DataFrameReader.format(...).option("key", "value").schema(...).load()

// 示例
spark.read.format("csv")
.option("mode", "FAILFAST")          // 读取模式
.option("inferSchema", "true")       // 是否自动推断 schema
.option("path", "path/to/file(s)")   // 文件路径
.schema(someSchema)                  // 使用预定义的 schema      
.load()

读取模式有以下三种可选项：

读模式	描述
`permissive`	当遇到损坏的记录时，将其所有字段设置为 null，并将所有损坏的记录放在名为 _corruption t_record 的字符串列中
`dropMalformed`	删除格式不正确的行
`failFast`	遇到格式不正确的数据时立即失败

1.3 写数据格式

// 格式
DataFrameWriter.format(...).option(...).partitionBy(...).bucketBy(...).sortBy(...).save()

//示例
dataframe.write.format("csv")
.option("mode", "OVERWRITE")         //写模式
.option("dateFormat", "yyyy-MM-dd")  //日期格式
.option("path", "path/to/file(s)")
.save()

写数据模式有以下四种可选项：

Scala/Java	描述
`SaveMode.ErrorIfExists`	如果给定的路径已经存在文件，则抛出异常，这是写数据默认的模式
`SaveMode.Append`	数据以追加的方式写入
`SaveMode.Overwrite`	数据以覆盖的方式写入
`SaveMode.Ignore`	如果给定的路径已经存在文件，则不做任何操作

2、CSV

CSV 是一种常见的文本文件格式，其中每一行表示一条记录，记录中的每个字段用逗号分隔。

2.1 读取CSV文件

spark.read.format("csv")
.option("header", "false")        // 文件中的第一行是否为列的名称
.option("mode", "FAILFAST")      // 是否快速失败
.option("inferSchema", "true")   // 是否自动推断 schema
.load("/usr/file/csv/dept.csv")
.show()

使用预定义类型：

import org.apache.spark.sql.types.{
   StructField, StructType, StringType,LongType}
//预定义数据格式
val myManualSchema = new StructType(Array(
    StructField("deptno", LongType, nullable = false),
    StructField("dname", StringType,nullable = true),
    StructField("loc", StringType,nullable = true)
))
spark.read.format("csv")
.option("mode", "FAILFAST")
.schema(myManualSchema)
.load("/usr/file/csv/dept.csv")
.show()

2.2 写入CSV文件

df.write.format("csv").mode("overwrite").save("/tmp/csv/dept2")

也可以指定具体的分隔符：

df.write.format("csv").mode("overwrite").option("sep", "\t").save("/tmp/csv/dept2")

3、JSON

3.1 读取JSON文件

spark.read.format("json").option("mode", "FAILFAST").load("/usr/file/json/dept.json").show(5)

需要注意的是：默认不支持一条数据记录跨越多行 (如下)，可以通过配置 multiLine 为 true 来进行更改，其默认值为 false。

3.2 写入JSON文件

df.write.format("json"

最低0.47元/天解锁文章

小财迷，嘻嘻

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark SQL操作外部数据源(含Spark和Hive集成)

目录1、简介1.1 多数据源支持1.2 读数据格式1.3 写数据格式2、CSV2.1 读取CSV文件2.2 写入CSV文件3、JSON3.1 读取JSON文件3.2 写入JSON文件4、Parquet4.1 读取Parquet4.2 写入Parquet文件5、hive表5.1 spark-shell5.2 IDEA6、mysql6.1 spark-shell6.2 IDEA1、简介1.1 多数据源支持1.2 读数据格式所有读取 API 遵循以下调用格式：// 格式DataFrameReader
复制链接

扫一扫