hive 只有map没有reducer 的优化

yisun123456

于 2018-08-02 10:59:19 发布

阅读量2.9k

点赞数 1

分类专栏： hive

hive 专栏收录该内容

48 篇文章 4 订阅

订阅专栏

hive中在做查询时，经常会碰到这种问题，任务只起map不起reduce；

环境：

hive

100出头的节点

7T左右的内存

basic表有300-400个分区，总数据量在6亿-7亿；

如下sql：

select * from basic_sum where user_log_acct='abcd';

这个sql只会起一个job，这个job只有map，没有reduce；输入数据较多，会比较慢；

可以对表进行distribute by，强制让其产生reduce；

优化后sql如下：

select * from basic_sum where user_log_acct='abcd' distribute by rand(1234);

这个sql会产生reduce；

具体效率如下：

上图是优化前，下图是优化后，效率还是有明显的提升的；

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。