简单理解parquet文件格式——按列存储和元数据存储

最新推荐文章于 2025-03-29 19:48:55 发布

zhang35

最新推荐文章于 2025-03-29 19:48:55 发布

阅读量1.2w

点赞数 11

分类专栏：大数据技术栈文章标签： big data spark hive parquet

本文链接：https://blog.csdn.net/zhang35/article/details/122284903

版权

5 篇文章

订阅专栏

Apache Parquet是一种常见的列式存储文件格式，常用于Pig, Spark, Hive等大数据组件中，其后缀是.parquet。

核心特点有：

下面详细介绍第3、4个特点。

假设有以下数据表：

#>      id name    age
#>   <int> <chr> <dbl>
#> 1     1 n1       20
#> 2     2 n2       35
#> 3     3 n3       62

如果存储为csv格式，即按行存储，那么：

如：

SELECT * FROM table_name WHERE id == 2

只需要找到第2行，把这一行所有数据取出来即可。

但是，如果想对age列求和，效率就低了，需要遍历每一行，从每行中找出哪个值是年龄。

Parquet 使用列式存储，形式如下：

1 2 3
n1 n2 n3
20 35 62

这时想对age列求和，只需要把最后一行的值加起来即可，效率很高。

但相对的，按行的查询效率就低了。

由于parquet是按列存储的, 相同格式的数据存储在一起，就有了很大优化空间。

假设某列只包含某一个重复值，只需记录“值x重复了n次”。

如果包含了多个重复值，只需要添加一个查找表即可。

如一列数据：

4 4 4 4 4 1 2 2 2 2

可以存储为：

4, 重复5次
1, 重复1次
2, 重复4次

假设有一列字符串：

"Jumping Rivers" "Jumping Rivers" "Jumping Rivers"

只需要把"Jumping Rivers"用0表示，再存储0到"Jumping Rivers"的映射关系：

0 0 0
0 -> "Jumping Rivers"

比如存储10^6个"Jumping Rivers"，parquet只需要1.09K，而csv需要14.31M。

这种编码主要用于存储timestamps。时间戳是1970年1月1日以来经过的秒数，如：

"2021-09-21 17:05:08 BST"

表示为：

1632240309

其实不需要记录这么大的数字，只需要记录和最小时间戳的差值即可，如：

1628426074 1628426078 1628426080

记录为：

0 4 6

即可。