1、报错信息诊断
2、上面是报错的具体信息,当我们看到第一条报错的时候很苦恼,不知道怎么办。这种情况不要被吓到!继续往下看看,寻找自己懂的!看到了后面的Java内存溢出,是不是
大家就恍然大悟,这种情况我们还是很常见的,由于我的hive默认使用tez,tez是运行于内存的,所以两个表join的时候表过大是会出现内存溢出的,那么怎么解决呢?
1)加内存
2)设置执行引擎为mr,在hiveSQL语句前设置:set hive.execution.engine=mr;
3、那么第一个报错具体是什么意思呢?其实是这样的,mapJoin是先将一张表存放在内存中进行缓存,当如果表的数据过大的时候,内存吃不消进而报错,mapJoin一把处理一张小表和一张大表,新版的hive会自动优化把小表存入内存中进行缓存.如果业务需求必须要用两张大表进行Join,那需要先把mapJoin临时关闭,之后再开启。解决办法:
set hive.auto.convert.join = false
4、个人思考:对于加内存的设置,固然可以解决这个问题,可是两张表如果再大呢?同样设置mapjoin临时关闭也是一样的道理
对于设置执行引擎变为mr,我们就要能容忍执行速度慢的问题。
所以调优,调优,调整的是由于实际业务的优,没有全优!