(第九章) Hive企业级调优之MapJoin

最新推荐文章于 2024-08-01 08:57:56 发布

鞋子不会飞

最新推荐文章于 2024-08-01 08:57:56 发布

阅读量168

点赞数

分类专栏：智能大数据体系 # hive 文章标签： Hive企业级调优之MapJoin

本文链接：https://blog.csdn.net/weixin_45651336/article/details/102964846

版权

智能大数据体系同时被 2 个专栏收录

57 篇文章 0 订阅

订阅专栏

hive

40 篇文章 0 订阅

订阅专栏

Hive企业级调优之MapJoin

如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join，避免reducer处理。
1．开启MapJoin参数设置
（1）设置自动选择Mapjoin

set hive.auto.convert.join = true; 默认为true

（2）大表小表的阈值设置（默认25M一下认为是小表）：

set hive.mapjoin.smalltable.filesize=25000000;

2．MapJoin工作机制，如图6-15所示
在这里插入图片描述
案例实操：
（1）开启Mapjoin功能

set hive.auto.convert.join = true; 默认为true

（2）执行小表JOIN大表语句

insert overwrite table jointable
select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url
from smalltable s
join bigtable  b
on s.id = b.id;
Time taken: 24.594 seconds

（3）执行大表JOIN小表语句

insert overwrite table jointable
select b.id, b.time, b.uid, b.keyword, b.url_rank, b.click_num, b.click_url
from bigtable  b
join smalltable  s
on s.id = b.id;
Time taken: 24.315 seconds