11-hive的存储格式&索引&视图&数据压缩

hive的存储格式

在这里插入图片描述

案例测试

案例一:textfile

在这里插入图片描述

案例二:sequencefile

在这里插入图片描述

案例三:parquet
在这里插入图片描述

rcfile 和 orcfile跟上述一样

stored as rcfile

stored as orcfile

hive的索引

概要

在这里插入图片描述

索引的创建

在这里插入图片描述

2 )创建索引

create index index_rate2
on table rate2(uid)
as 'compact' -- 索引文件的存储格式
with deferred rebuild -- 索引能够重建
;

3 ) 修改索引(重建索引) 目的产生索引文件

alter index index_rate2
on rate2 rebuild;

4 ) 查看索引

show index on rate2;

5 ) 验证性能

select count(*) from rate1;
select count(*) from rate2;

select * from rata1 where uid = 6040;
select * from rata2 where uid = 6040;

6 ) 创建联合索引

create index index_rate2_uid_movie
on table rata2(uid,movie)
as 'bitmap'
with deferred rebuild
;

alter index index_rate2_uid_movie on rate2 rebuild;

select * from rate1 where uid=6040 and movie=2020;
select * from rate2 where uid=6040 and movie=2020;

7 ) 删除索引

drop index index_rate2 on rate2;

hive的视图

在这里插入图片描述

hive的数据压缩

HQL语句最终会被编译成Hadoop的Mapreduce job,因此hive的压缩设置,实际上就是对底层MR在处理数据时的压缩设置。

hive在map阶段的压缩

map阶段的设置,就是在MapReduce的shuffle阶段对mapper产生的中间结果数据压缩。在这个阶段,优先选择一个低CPU开销的算法。

在这里插入图片描述

hive在reduce阶段的压缩

即对reduce阶段的输出数据进行压缩设置。

在这里插入图片描述

常用压缩格式

在这里插入图片描述

案例测试

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值