Hive表的存储格式

Hive表的存储格式

文件格式-概述
在这里插入图片描述

Hive的文件格式-TextFile

  • TextFile 是Hive中默认的文件格式 存储形式为按行存储
  • 工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是TextFile格式,所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题 选用TextFile为默认的格式
  • 建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理
    在这里插入图片描述
    文件大小在hdfs和本地 没有什么变化
    在这里插入图片描述

Hive的文件格式-SequenceFile

  • SequenceFile 是Hadoop里面用来存储序列化的键值对既二进制的一种文件格式
  • SequenceFile 文件也可以作为MapReduce作业的输入和输出 hive也支持这种格式
    在这里插入图片描述
    在这里插入图片描述

Hive的文件格式-Parquet

  • Parquet是一种支持嵌套结构的列式存储文件格式 最早由Twitter和Cloudera合作开发,2015年5月Apache孵化器里毕业成为Apache顶级项目
  • 是一种支持嵌套数据模型 对列式存储系统,作为大数据系统中OLAP查询的优化方案,他已经被多种查询引擎原生支持,并且部分高性能引擎将其作为默认的文件存储
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在大数据当中使用Parquet load直接加载数据 并不能编程Parquet格式 只能insert

Hive的文件格式-ORC

  • ORC文件格式也是一种Hadoop生态圈中的列式存储格式
  • 它的产生早在2013年初 最初产生Apache HIve 用于降低Hadoop 数据存储空间和加速HIve查询效率
  • 2015年PRC项目被Apache项目基金会提升为Apache顶级项目
    在这里插入图片描述
    Parquet和ORC 都是推荐使用的 但是优先推荐ORC
    在这里插入图片描述
    153MB-》32MB 压缩率
    底层二进制
  • 6
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值