hive报错Error: GC overhead limit exceeded

事故缘由

千万级别的数据量落入分区表中,同时设置插入的分区为动态分区

根据yarn上资源使用情况,发现集群的内存,cpu,核数都正常,但是数据导入任务执行 88%后,就出现

GC overhead limit exceeded , 根据生成的执行日志,发现数据导入只有map 任务,数据量级别在几千万的数据量

设置jvm参数

set mapred.child.java.opts=-Xmx8000m;
set mapreduce.map.java.opts=-Xmx8096m;
set mapreduce.reduce.java.opts=-Xmx8096m;
set mapreduce.map.memory.mb=8096;
set mapreduce.reduce.memory.mb=8096;

通过调大jvm参数,可以使数据跑过去,但是只要数据量翻倍的情况,还是会报错

GC overhead limit exceeded

优化方案:

插入数据的时候,在插入条件后面加入 cluster by 落入数据关键字段 , 将数据分散,同时生成一定量的reduce task 来处理一部分数据

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值