day64 Spark SQL下Parquet的数据切分和压缩内幕详解

Parquet与SparkSQL优化

最新推荐文章于 2025-01-08 23:04:53 发布

黄色沙琪玛

最新推荐文章于 2025-01-08 23:04:53 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanglin200508/article/details/51422054

spark 专栏收录该内容

47 篇文章

订阅专栏

ＤＴ大数据梦工厂联系方式：

新浪微博：www.weibo.com/ilovepains/
微信公众号：DT_Spark

博客：http://.blog.sina.com.cn/ilovepains

Parquest类的操作

ParquestRelation源码:

public class ParquetOutputFormat<T>extends FileOutputFormat<Void, T> {

值会被具体的压缩类，

ColumnWriter列的方式

pageSizeThreshold()方法

默认情况下一般选择256M，

SqlNewHadoopRDD源码：

一个rowGreap 跨多个split该怎么（涉及网络通信）：多个Executor都受到这个rowGreap的请求，这样数据在不同的机器会减少数据的迁移。

ParquetMetaDataConsumer源码：

SparkSQL 下的parquet 数据切分

Spark SQL 下的parquet数据压缩

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。