DT大数据梦工厂联系方式:
新浪微博:www.weibo.com/ilovepains/
微信公众号:DT_Spark
博客:http://.blog.sina.com.cn/ilovepains
Parquest类的操作
ParquestRelation源码:
public class ParquetOutputFormat<T>extends FileOutputFormat<Void, T> {
值会被具体的压缩类,
ColumnWriter列的方式
pageSizeThreshold()方法
默认情况下一般选择256M,
SqlNewHadoopRDD源码:
一个rowGreap 跨多个split该怎么(涉及网络通信):多个Executor都受到这个rowGreap的请求,这样数据在不同的机器会减少数据的迁移。
ParquetMetaDataConsumer源码:
SparkSQL 下的parquet 数据切分
Spark SQL 下的parquet数据压缩