参考文档
https://parquet.apache.org/documentation/latest/ : 官网
https://blog.csdn.net/Night_ZW/article/details/108359619
https://cnblogs.com/panpanwelcome/p/10248990.html
https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/36632.pdf : dermel论文
https://www.cnblogs.com/ulysses-you/p/7985240.html
zhuanlan.zhihu.com/p/111822325
学习parquet文件格式,先来了解列存储和行存储
- 行存储:一条记录存储在连续的磁盘上
- 列存储:一条记录存储在磁盘的不同位置,但是整个关系(表)的一列存储在连续的磁盘上.
了解oltp和olap的典型场景
- tp
- 单条记录的增删改查,通常是整条记录
- 频繁的插入或更新;
- ap
- 某几列的整表统计.分组,排序,聚合等
分析
- 单条记录的增删改查
- 行存储通过索引找到数据直接修改数据,但是列存储却需要将记录分成列,再对每列操作.操作数指数上升
- 统计
- 行存储需要整表扫描并计算
- 列存储
- 选择部分列:不需要所有的列都读出来,读数少
- 过滤不需要的数据
- 同列同类型:高压缩,每列都可以选择不同的压缩方式,数据量更少,缓存效果更高等
- 向量计算
- 行列混合存储
- 明面上是行存储,实际用列存储;
- parqu