hadoop学习---基于Hive的索引机制及其优化方案

卓_尔_不_凡

于 2024-05-06 22:47:11 发布

阅读量1.1k

点赞数 33

分类专栏： Hive Hadoop 文章标签： hadoop 学习 hive

本文链接：https://blog.csdn.net/weixin_46164667/article/details/138509987

版权

Hadoop 同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

Hive

6 篇文章 0 订阅

订阅专栏

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。

Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。

在可以预见到分区数据非常庞大的情况下，分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格，所以并不是总能生效。

hive索引是在分区分桶优化基础上, 又提供一种新的优化手段, 如果分区和分桶受限, 可以尝试使用索引的方式来优化处理

hive提供了三种索引:

* 原始索引
* row group index(行组索引)
* bloom filter index(布隆过滤索引)

Hive原始索引

Hive的索引目的是提高Hive表指定列的查询速度。

没有索引时，类似'WHERE tab1.col1 = 10' 的查询，Hive会加载整张表或分区，然后处理所有的rows，但是如果在字段col1上面存在索引时，那么只会加载和处理文件的一部分。

在每次建立、更新数据后，Hive索引不会自动更新，需要手动进行更新（重建索引以构建索引表），会触发一个mapreduce job

Hive索引使用过程繁杂，而且性能一般，在Hive3.0中已被删除，在工作环境中不推荐优先使用，在分区数量过多或查询字段不是分区字段时，索引可以作为补充方案同时使用。推荐使用ORC文件格式的索引类型进行查询。

结论: 此索引已经不再使用, 在hive3.0以上, 彻底不支持

弊端:
hive原始索引, 不会自动更新, 每一次对表中数据进行处理后, 都需要进行重建索引, 而这个效率是比较差, 而且整体效率的提升,相对比较有限

Row Group Index

一个ORC文件包含一个或多个stripes(groups of row data)，每个stripe中包含了每个column的min/max值的索引数据，当查询中有<,>,=的操作时，会根据min/max值，跳过扫描不包含的stripes。

而其中为每个stripe建立的包含min/max值的索引，就称为Row Group Index行组索引，也叫min-max Index大小对比索引，或者Storage Index。

在建立ORC格式表时，指定表参数’orc.create.index’=’true’之后，便会建立Row Group Index，需要注意的是，为了使Row Group Index有效利用，向表中加载数据时，必须对需要使用索引的字段进行排序，否则，min/max会失去意义。另外，这种索引主要用于数值型字段的查询过滤优化上。

设置hive.optimize.index.filter为true，并重启hive

条件:
   1) 要求表必须是ORC存储格式
   2) 需要对那个字段进行索引, 必须对这个字段进行排序, 否则索引意义不大
   3) 在创建表的时候, 必须开启行组索引: ’orc.create.index’=’true’
   4) 主要应用在 < > = 场景中, 主要针对数值类型数据建表操作:

CREATE TABLE lxw1234_orc2(
    ....
) stored AS ORC
TBLPROPERTIES
(
    'orc.compress'='SNAPPY',
--     开启行组索引
    'orc.create.index'='true'
)

--插入数据:
    SELECT CAST(siteid AS INT) AS id,
    pcid
    FROM lxw1234_text
--     插入的数据保持排序
    DISTRIBUTE BY id sort BY id;

Bloom Filter Index

在建表时候，通过表参数”orc.bloom.filter.columns”=”pcid”来指定为那些字段建立BloomFilter索引，这样，在生成数据的时候，会在每个stripe中，为该字段建立BloomFilter的数据结构，当查询条件中包含对该字段的=号过滤时候，先从BloomFilter中获取以下是否包含该值，如果不包含，则跳过该stripe。

条件:
   1) 必须是ORC类型的表
   2) 需要按照哪一个字段进行等值连接, 需要对这个字段构建布隆索引
   3) 仅适合做等值连接, 不局限于数据类型
   4) 在建表的时候, 必须指定为那些字段开启: ”orc.bloom.filter.columns”=”pcid,字段2..”

CREATE TABLE lxw1234_orc2 (
   ....
) stored AS ORC
TBLPROPERTIES
(
    'orc.compress'='SNAPPY',
    'orc.create.index'='true',
--     pcid字段开启BloomFilter索引
    'orc.bloom.filter.columns'='pcid'
)

插入数据: 
SELECT CAST(siteid AS INT) AS id,
pcid
FROM lxw1234_text
DISTRIBUTE BY id sort BY id;


使用索引:
SET hive.optimize.index.filter=true --开启 hive的自动使用索引
SELECT COUNT(1) FROM lxw1234_orc1 WHERE id >= 0 AND id <= 1000   (行组索引)
AND pcid IN ('0005E26F0DCCDB56F9041C','A'); (布隆过滤索引)

注意:

如果要使用hive的索引, 必须开启hive自动使用索引

SET hive.optimize.index.filter=true --开启 hive的自动使用索引

在生产中这些索引如何选择呢?

1) 行组索引, 建议是常开即可
   在插入数据, 如果不明确对那个字段使用行组索引, 可以任意的插入, 在条件合适情况下, 也在使用行组索引

2) 布隆过滤索引: 根据情况，主要将那些用于等值连接的字段开启索引即可
   一般主要指的是 join关联字段以及清洗字段

卓_尔_不_凡

关注

33
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习---基于Hive的索引机制及其优化方案

基于Hive的索引机制及其优化方案
复制链接

扫一扫

专栏目录