hive报错Error: GC overhead limit exceeded

最新推荐文章于 2023-08-06 10:30:37 发布

_东极

最新推荐文章于 2023-08-06 10:30:37 发布

阅读量3.1k

点赞数

分类专栏： Hive-大象蜂

年轻人应该玩转风口浪尖的一切技术

本文链接：https://blog.csdn.net/wwwzydcom/article/details/119865147

版权

Hive-大象蜂专栏收录该内容

35 篇文章 1 订阅

订阅专栏

事故缘由

千万级别的数据量落入分区表中,同时设置插入的分区为动态分区

根据yarn上资源使用情况,发现集群的内存,cpu,核数都正常,但是数据导入任务执行 88%后,就出现

GC overhead limit exceeded , 根据生成的执行日志,发现数据导入只有map 任务,数据量级别在几千万的数据量

设置jvm参数

set mapred.child.java.opts=-Xmx8000m;
set mapreduce.map.java.opts=-Xmx8096m;
set mapreduce.reduce.java.opts=-Xmx8096m;
set mapreduce.map.memory.mb=8096;
set mapreduce.reduce.memory.mb=8096;

通过调大jvm参数,可以使数据跑过去,但是只要数据量翻倍的情况,还是会报错

GC overhead limit exceeded

优化方案:

插入数据的时候,在插入条件后面加入 cluster by 落入数据关键字段 , 将数据分散,同时生成一定量的reduce task 来处理一部分数据

优惠劵

_东极

关注关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
hive报错Error: GC overhead limit exceeded

事故缘由根据yarn上资源使用情况,发现集群的内存,cpu,核数都正常,但是数据导入任务执行 88%后,就出现GC overhead limit exceeded , 根据生成的执行日志,发现数据导入只有map 任务,数据量级别在几千万的数据量设置jvm参数set mapred.child.java.opts=-Xmx8000m;set mapreduce.map.java.opts=-Xmx8096m;set mapreduce.reduce.java.opts=-Xmx8096m;set
复制链接

扫一扫