DT大数据梦工厂联系方式:
新浪微博:www.weibo.com/ilovepains/
微信公众号:DT_Spark
博客:http://.blog.sina.com.cn/ilovepains
SparkSQL 下的Parquet 序列化
SparkSql 下的Parquet源码解读
SparkSql下Parquet总结
Parquet下的Bolck块,
ClounCkeck:列块
rowGroup: 行组以Page的方式存储,Page 是压缩和编码的最小单位,每个rowGroup包含多个cloumnCheck,每个clounCkeck 包含多个Page
文件元数据,列块元数据
减少序列化反序列化的时间:
SqlNewHadoopRDD –165
UnsafeRow
Platform:类中 copyMemory(): 递归
RecordReduceerImplementation.java