hive 只有map没有reducer 的优化

hive中在做查询时,经常会碰到这种问题,任务只起map不起reduce;

环境:

hive 

100出头的节点

7T左右的内存

basic表有300-400个分区,总数据量在6亿-7亿;

如下sql:

select * from  basic_sum where user_log_acct='abcd';

这个sql只会起一个job,这个job只有map,没有reduce;输入数据较多,会比较慢;

可以对表进行distribute by,强制让其产生reduce;

优化后sql如下:

select * from  basic_sum where user_log_acct='abcd' distribute by rand(1234);

这个sql会产生reduce;

具体效率如下:

hive中只有map没有reduce的任务优化


hive中只有map没有reduce的任务优化
上图是优化前,下图是优化后,效率还是有明显的提升的;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值