事故缘由
千万级别的数据量落入分区表中,同时设置插入的分区为动态分区
根据yarn上资源使用情况,发现集群的内存,cpu,核数都正常,但是数据导入任务执行 88%后,就出现
GC overhead limit exceeded , 根据生成的执行日志,发现数据导入只有map 任务,数据量级别在几千万的数据量
设置jvm参数
set mapred.child.java.opts=-Xmx8000m;
set mapreduce.map.java.opts=-Xmx8096m;
set mapreduce.reduce.java.opts=-Xmx8096m;
set mapreduce.map.memory.mb=8096;
set mapreduce.reduce.memory.mb=8096;
通过调大jvm参数,可以使数据跑过去,但是只要数据量翻倍的情况,还是会报错
GC overhead limit exceeded
优化方案:
插入数据的时候,在插入条件后面加入 cluster by 落入数据关键字段 , 将数据分散,同时生成一定量的reduce task 来处理一部分数据