HiveSQL两表join时报Map operator initialization failed异常解决方法

1、报错信息诊断

2、上面是报错的具体信息,当我们看到第一条报错的时候很苦恼,不知道怎么办。这种情况不要被吓到!继续往下看看,寻找自己懂的!看到了后面的Java内存溢出,是不是

大家就恍然大悟,这种情况我们还是很常见的,由于我的hive默认使用tez,tez是运行于内存的,所以两个表join的时候表过大是会出现内存溢出的,那么怎么解决呢?

1)加内存

2)设置执行引擎为mr,在hiveSQL语句前设置:set hive.execution.engine=mr;

3、那么第一个报错具体是什么意思呢?其实是这样的,mapJoin是先将一张表存放在内存中进行缓存,当如果表的数据过大的时候,内存吃不消进而报错,mapJoin一把处理一张小表和一张大表,新版的hive会自动优化把小表存入内存中进行缓存.如果业务需求必须要用两张大表进行Join,那需要先把mapJoin临时关闭,之后再开启。解决办法:

set hive.auto.convert.join = false

4、个人思考:对于加内存的设置,固然可以解决这个问题,可是两张表如果再大呢?同样设置mapjoin临时关闭也是一样的道理

                        对于设置执行引擎变为mr,我们就要能容忍执行速度慢的问题。

所以调优,调优,调整的是由于实际业务的优,没有全优!

                       

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值