Hive数仓：使用桶表

最新推荐文章于 2023-11-16 16:03:24 发布

shenhao_sufe

最新推荐文章于 2023-11-16 16:03:24 发布

阅读量324

点赞数

分类专栏： Hadoop 文章标签： hive 大数据 mysql 数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44706343/article/details/116680335

版权

Hadoop 专栏收录该内容

16 篇文章 4 订阅

订阅专栏

Hive数仓：使用桶表

实验环境

Linux Ubuntu 16.04

前提条件：
1）Java 运行环境部署完成
2）Hadoop2.7.6的单点部署完成
3) MySQL数据库安装完成
4) Hive单点部署完成
上述前提条件，我们已经为你准备就绪了。

###实验内容

使用Hive完成以下实验：

创建分桶表
导入数据
抽样查询
删除分桶表

现在开始我们的学习吧！

实验步骤

1.点击"命令行终端"，打开新窗口

2.启动MySQL

本实验平台已经提前安装好了MySql（账户名root，密码123456），这里只需要启动MySql服务即可

sudo /etc/init.d/mysql start

3.指定元数据数据库类型并初始化Schema

schematool -initSchema -dbType mysql

4.启动Hadoop

进入/apps/hadoop/bin目录

cd /apps/hadoop/sbin

执行启动脚本

./start-all.sh

注意，如果终端显示Are you sure you want to continue connecting (yes/no)? 提示，我们需要输入yes，再按回车即可。

检验hadoop是否启动成功

jps

5.启动hive

hive

此时，终端显示hive>，表明已经进入hive的命令行模式。

6.创建名为dolphin的数据库

create database if not exists dolphin;

显示并使用新建的dolphin数据库

show databases;

use dolphin;

7.创建分桶表

创建桶表的语法：clustered by 后面加的列一定是在表中存在的列

后面接的是桶的个数，4意味着一次上传数据会根据id的hash值再与4取模，根据这个值决定这条数据落入那个文件中。

create table bucket(id int, name string) CLUSTERED BY (id) INTO 4 BUCKETS row format delimited fields terminated by ','lines terminated by '\n'stored as textfile;

执行后显示如下：

8.查看分桶表具体信息

输入如下命令，回车

desc formatted bucket;

执行后显示如下：

我们从上面观察表的基本结构，列，属性，存储位置，导入导出依赖，分桶数量，等等

9.测试分桶表导入本地数据

设置强制分桶机制来保证reducer数量和桶的数量一致

set hive.enforce.bucketing = true;

尝试直接上传一个数据

我们已经在桌面为大家准备好数据集bucket.txt,打开文件后观察数据

load data local inpath '/home/dolphin/Desktop/bucket.txt' overwrite into table bucket;

执行后显示如下：

10.查看表bucket数据

首先查看bucket中的数据

select * from bucket;

执行后部分日志显示如下：

查看数据在HDFS上的分布

新打开一个命令行终端，输入如下命令

hadoop fs -ls /user/hive/warehouse/dolphin.db/bucket

执行后部分日志显示如下：

我们看到虽然设置了强制分桶，但实际bucket表下面只有一个bucket.txt一个文件
分桶也就是分区，分区数量等于文件数，所以上面方法并没有成功分桶。

结论：桶表不能通过load的方式直接加载数据

11.新建分桶表和过渡表

创建新的分桶表

create table bucket_2(id int, name string) CLUSTERED BY (id) INTO 4 BUCKETS row format delimited fields terminated by ','lines terminated by '\n'stored as textfile;

创建过渡表

create table dome(id int, name string)row format delimited fields terminated by ',';

执行后显示如下：

12.插入数据到分桶表

现在，我们用插入的方法给另外一个分桶表传入同样数据

首先上传数据到过渡表dome

load data local inpath '/home/dolphin/Desktop/bucket.txt' overwrite into table dome;

查看数据是否导入成功

select * from dome;

执行后显示如下：

将过渡表中的数据插入新建的分桶表

insert into table bucket_2 select * from dome;

执行后部分日志显示如下：

由于我们设置了强制分桶机制，在这里我们可以看到MarReduce任务中启动了4个Reduce

13.查询bucket_2的信息

查看bucket_2数据在HDFS上的分桶文件

重新打开一个命令行终端，输入如下命令，回车

hadoop fs -ls /user/hive/warehouse/dolphin.db/bucket_2

执行后显示如下：

查看bucket_2中的分桶中的数据

hadoop fs -cat /user/hive/warehouse/dolphin.db/bucket_2/000000_0

执行后部分日志显示如下：

14.hive中查询分桶表中的数据

查看bucket_2中的数据

select * from bucket_2;

执行后显示如下：

15.修改桶表中bueket数量

重新将bucket_2表中的数据按id，name分成20个桶，并用id排序

alter table bucket_2 clustered by(id,name) sorted by(id) into 20 buckets;

执行后部分日志显示如下：

观察日志发现，表格已经分成20个桶

15.分桶表的抽样查询

语法：
select * from table_name tablesample(bucket X out of Y on field);
X表示从哪个桶中开始抽取，Y表示相隔多少个桶再次抽取。
Y必须为分桶数量的倍数或者因子

select * from bucket_2 tablesample(bucket 2 out of 4 on id);

执行后部分日志显示如下：

16.删除分桶表bucket_2

输入如下命令，回车

drop table bucket_2;

执行后显示如下：

实验总结

桶表是对某一列数据进行哈希取值以将数据打散，然后放到不同文件中存储。
在hive分区表中，分区中的数据量过于庞大时，建议使用桶。
在分桶时，对指定字段的值进行hash运算得到hash值，并使用hash值除以桶的个数做
取余运算得到的值进行分桶，保证每个桶中有数据但每个桶中的数据不一定相等。
做hash运算时，hash函数的选择取决于分桶字段的数据类型
分桶后的查询效率比分区后的查询效率更高

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive数仓：使用桶表

Hive数仓：使用桶表文章目录Hive数仓：使用桶表实验环境实验步骤1.点击"命令行终端"，打开新窗口2.启动MySQL3.指定元数据数据库类型并初始化Schema4.启动Hadoop5.启动hive6.创建名为dolphin的数据库7.创建分桶表8.查看分桶表具体信息9.测试分桶表导入本地数据10.查看表bucket数据11.新建分桶表和过渡表12.插入数据到分桶表13.查询bucket_2的信息14.hive中查询分桶表中的数据15.修改桶表中bueket数量15.分桶表的抽样查询16.删除分桶表bu
复制链接

扫一扫

专栏目录

shenhao_sufe CSDN认证博客专家 CSDN认证企业博客

码龄5年

23: 原创

15万+: 周排名

206万+: 总排名

2万+: 访问

: 等级

299: 积分

9: 粉丝

11: 获赞

12: 评论

124: 收藏

私信

关注

热门文章

分类专栏

最新评论

Hive数仓：操作分区表
lin0l: 开启动态分区的代码是错的
Hive数仓：导入、导出表数据
2301_79023372: CREATE TABLE testB ( id INT, name string, area string, code string ) PARTITIONED BY (create_time string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;
Hive数仓：导入、导出表数据
CVSKY: 大佬们，hive -e导出，日志也跟着写入文件了，这个怎么设置呀！
MLlib 二分类问题
zzjzzj___zzjzzj: uci上下的数据集在df.groupby('deposit').count().toPandas()报错为啥
MLlib 二分类问题
smallcharlie: 博主有数据集资源吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

shenhao_sufe 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。