存储格式和协议
worldchinalee
这个作者很懒,什么都没留下…
展开
-
深入分析Parquet列式存储格式
Parquet是面向分析型业务的列式存储格式,由Twitter和Cloudera合作开发,2015年5月从Apache的孵化器里毕业成为Apache顶级项目,最新的版本是1.8.0。 列式存储 列式存储和行式存储相比有哪些优势呢? 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。 压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run ...转载 2018-09-20 13:07:41 · 2834 阅读 · 0 评论 -
Parquet原理
在互联网大数据应用场景下,通常数据量很大且字段很多, 但每次查询数据只针对其中的少数几个字段,这时候列式存储是极佳的选择。 列式存储要解决的问题: 把IO只给查询需要用到的数据 只加载需要被计算的列 空间节省 列式的压缩效果更好 可以针对数据类型进行编码 开启矢量化的执行引擎(不再1条1条的处理数据,而是一次处理1024条数据) Parquet和ORC是两种列式存储格式 ...转载 2018-09-20 13:17:46 · 14004 阅读 · 1 评论