Hive分桶表及抽样查询

最新推荐文章于 2024-05-10 11:53:40 发布

Marho11

最新推荐文章于 2024-05-10 11:53:40 发布

阅读量1w

点赞数 8

分类专栏： Hive 文章标签： hive

本文链接：https://blog.csdn.net/zhihaoma/article/details/52539986

版权

Hive 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

抽样查询

对于非常大的数据集，用户不需要全部查询的结果，只需要一个代表性的查询结果时，可以通过对表进行分桶抽样。

Hive分桶表

先介绍一下Hive桶。
桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。
好处：
1、获得更高的查询处理效率。
2、使抽样更高效。
创建带桶的table：

create table bucketed_user(id int ,name string) clustered by (id)  into 4 buckets row format delimited fields terminated by '\t' stored as textfile;

使用CLUSTERED BY子句指定使用哪一个列来划分桶和要划分的桶的个数。
对于map端连接的情况，两个表以相同方式划分桶。处理左边表内某个桶的mapper知道右边表内相匹配的行在哪个对应的桶内。因此，mapper只需要获取那个桶 (这只是右边表内存储数据的一小部分)即可进行连接。这一优化方法并不一定要求两个表必须具有相同个数的桶，两个表的桶个数是倍数关系也可以。
创建一个排序桶：

create table bucketed_users(id int ,name string) clustered by (id) sorted by (name) into 4 buckets;

查看目录，发现已经有了bucketed_users这个目录

hive> dfs -ls /user/hive/warehouse;
Found 4 items
drwxrwxr-x   - mahao supergroup          0 2016-09-13 22:59 /user/hive/warehouse/bucketed_users
drwxrwxr-x   - mahao supergroup          0 2016-09-12 01:58 /user/hive/warehouse/employees
drwxrwxr-x   - mahao supergroup          0 2016-09-08 20:04 /user/hive/warehouse/src
drwxrwxr-x   - mahao supergroup          0 2016-09-07 22:26 /user/hive/warehouse/test

桶中的数据根据name列进行排序，在对每个桶进行连接时变成了高效的归并排序。
Hive不检测数据文件中的桶是否和表定义中的桶一致（桶数或划分桶的列），如果不匹配，会在查询时出错，所以，建议让Hive来划分桶的操作。
向表中插入数据

物理上，一个桶就是表（或分区）目录里的一个文件。桶对应于MapReduce的输出文件分区：一个作业产生的桶（输出文件）和reduce任务个数相同。
在向分桶表加载数据时，需要先

set hive.enforce.bucketing=true;（hive2.0好像没有这个参数）

这样Hive就知道用表定义中声明的数量来创建桶，然后使用INSERT加载数据即可。
先准备一个没有划分桶的表users。

hive> select * from users;
OK
1   zhangsan
2   lisi
3   wangwu

向分桶表中插入数据：

INSERT OVERWRITE　TABLE bucketed_users SELECT * FROM users;

查看表结构：

mahao@ubuntu:~$ hadoop fs -ls /user/hive/warehouse/bucketed_users
Found 4 items
-rwxrwxr-x   1 mahao supergroup          0 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000000_0
-rwxrwxr-x   1 mahao supergroup         11 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000001_0
-rwxrwxr-x   1 mahao supergroup          7 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000002_0
-rwxrwxr-x   1 mahao supergroup          9 2016-09-13 23:36 /user/hive/warehouse/bucketed_users/000003_0

发现有四个文件，即四个桶。
查看文件：

mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*0_0;
mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*1_0;
1zhangsan
mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*2_0;
2lisi
mahao@ubuntu:~$ hadoop fs -cat /user/hive/warehouse/bucketed_users/*3_0;
3wangwu

因为不会显示分隔符，所以看着就是挨着的。

抽样查询

hive>SELECT * FROM bucketed_users TABLESAMPLE(bucket 1 out of 2 on id);
2   lisi

注：tablesample是抽样语句，语法：TABLESAMPLE(BUCKET x OUT OF y)
y必须是table总bucket数的倍数或者因子。hive根据y的大小，决定抽样的比例。例如，table总共分了64份，当y=32时，抽取(64/32=)2个bucket的数据，当y=128时，抽取(64/128=)1/2个bucket的数据。x表示从哪个bucket开始抽取。例如，table总bucket数为32，tablesample(bucket 3 out of 16)，表示总共抽取（32/16=）2个bucket的数据，分别为第3个bucket和第（3+16=）19个bucket的数据。

Marho11

关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
Hive分桶表及抽样查询

抽样查询对于非常大的数据集，用户不需要全部查询的结果，只需要一个代表性的查询结果时，可以通过对表进行分桶抽样。 Hive桶先介绍一下Hive桶。桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织，对列值哈希，然后除以桶的个数求余，决定将该条记录存放到哪个桶中。好处： 1、获得更高的查询处理效率。 2、使抽样更高效。创建带桶的table：create table
复制链接

扫一扫