Parquet的那些事（二）Spark中的Schema兼容问题

最新推荐文章于 2024-08-07 14:43:07 发布

置顶

Mr-Bruce

最新推荐文章于 2024-08-07 14:43:07 发布

阅读量1.6w

点赞数 10

分类专栏：大数据系统文章标签： parquet spark schema 兼容文件加载

本文链接：https://blog.csdn.net/zwgdft/article/details/104670086

版权

本文探讨了在Spark中处理Parquet文件时遇到的Schema兼容问题，包括文件加载和表加载两种方式。在文件加载时，Spark默认选择一个文件推导Schema，可通过参数`spark.sql.parquet.mergeSchema`合并所有文件Schema。表加载时，Spark从Hive Metastore获取Schema并合并。文章详细阐述了Schema合并的规则，并提供了避免性能损耗的建议。

摘要由CSDN通过智能技术生成

Parquet是一种存储格式，其本身与任何语言、平台都没有关系，也不需要与任何一种数据处理框架绑定。但是一个开源技术的发展，必然需要有合适的生态圈助力才行，Spark便是Parquet的核心助力之一。作为内存型并行计算引擎，Spark被广泛应用在流处理、离线处理等场景，其从1.0.0便开始支持Parquet，方便我们操作数据。

在Spark中操作Parquet文件有两种方式，一种是直接加载文件，另一种是透过Hive表来读取数据。我们姑且称之为文件加载、表加载。这两种方式在API层面都非常简洁，它隐藏了底层推导Schema、并行加载数据等细节。

# By File
df = spark.read.parquet("s3://mydata/type=security")

# By Table
df = spark.read.table("data_mine.security_log")

在实际使用中，我们经常会遇到Schema兼容的问题，其根源是Schema不一致，主要有以下两种情况：

存放在HDFS/S3上面的Parquet文件具有不同的Schema
Hive Metastore Schema与Parquet文件自带的Schema不一致

不管是需求变化、产品迭代还是其他原因，总是会出现Schema变化的情况，导致不同Parquet文件的Schema不同。比如，新增了一

最低0.47元/天解锁文章

Mr-Bruce

关注

10
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录