存储格式~

坤岭

已于 2023-11-02 16:06:11 修改

阅读量157

点赞数

分类专栏： # 数据计算工具文章标签：大数据 hadoop hdfs

于 2022-12-25 19:41:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_72649242/article/details/128437567

版权

数据计算工具专栏收录该内容

11 篇文章 0 订阅

订阅专栏

目录

ORC(Optimized Row Columnar)

ORC的数据存储方式

ORC具有以下一些优势:

存储格式

Text，Sequence，RCfile，ORC，Parquet，AVRO

Text：可读性好，占用磁盘空间大（文本行式存储），使用但是不常用

Sequence：Hadoop API提供的一种二进制文件，以key，value的形式序列化带文件中（二进制行式存储）

RCfile：面向列的存储格式（二进制列式存储，压缩）

ORC：RCfile的升级版，优化了压缩、查询（二进制列式存储，压缩），文件可切分，支持复杂的数据结构，常用的压缩格式Lzip,Snappy，压缩、解压一般是冲突的在

Parquet：存储嵌套式数据，如json；支持更多编码；可以很sparkSQL很好的结合。列式存储高压缩（二进制列式存储，高压缩）压缩和查询性能比ORC稍差

ORC(Optimized Row Columnar)

ORC的数据存储方式

存储过程中，记录会被横向切分成多个stripes，每个stripes内的数据以列为单位进行存储，

所有列的内容保存在同一个文件中，通过配置对block压缩，设置HDFS的每个block存储ORC文件

的一个stripe。每个stripe的默认大小为256MB，相对于RCFile每个4MB的stripe而言，更大的stripe

使ORC的数据读取更加高效。

首先根据行组分割整个表，在每一个行组内进行按列存储

元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗

目前也被Hive SQL、Spark SQL、Presto等查询引擎支持

设置stripe的只保存在一个block上的话，如果当前block上的剩余空间不足以存储下一个strpie，

ORC的writer接下来会将数据打散保存在block剩余的空间上，直到这个block存满为止。这样，下

一个stripe又会从下一个block开始存储。

ORC具有以下一些优势:

ORC是列式存储，有多种文件压缩方式，并且有着很高的压缩比。

文件是可切分（Split）的。因此，在Hive中使用ORC作为表的文件存储格式，不仅节省HDFS存储

资源，查询任务的输入数据量减少，使用的MapTask也就减少了。

提供了多种索引，row group index、bloom filter index。

ORC可以支持复杂的数据结构（比如Map等）

ORC中的特定的序列化与反序列化操作可以使ORC file writer根据数据类型进行写出。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
存储格式~

存储格式
复制链接

扫一扫

专栏目录

坤岭 CSDN认证博客专家 CSDN认证企业博客

码龄2年

35: 原创

45万+: 周排名

5万+: 总排名

2万+: 访问

: 等级

532: 积分

117: 粉丝

180: 获赞

4: 评论

201: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据挖掘与数据分析
ha_lydms: 这篇博客让我对于之前的一些观念产生了怀疑，作者的观点非常独到。
Flink基础
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/617515702。
Spark常用参数
CSDN-Ada助手: 推荐 Java 技能树：https://edu.csdn.net/skill/java?utm_source=AI_act_java

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。