hadoop的mapreduce作业中出现Java heap space，你认为该如何解决？

最新推荐文章于 2021-11-12 14:51:53 发布

xiongxianze

最新推荐文章于 2021-11-12 14:51:53 发布

阅读量1.8k

点赞数

分类专栏： 5====>大数据文章标签： mapreduce hadoop heap 解决方案

5====>大数据专栏收录该内容

15 篇文章 1 订阅

订阅专栏

本文针对Hadoop MapReduce作业中常见的Java heap space错误进行了深入分析，并提供了具体的解决方案。通过调整jobConf配置文件中的-Xmx参数值，可以有效解决因内存溢出导致的任务失败问题。

摘要由CSDN通过智能技术生成

hadoop的mapreduce作业中经常出现Java heap space解决方案

“为什么我的mapreduce作业总是运行到某个阶段就报出如下错误，然后失败呢？以前同一个作业没出现过的呀？”

10/01/10 12:48:01 INFO mapred.JobClient: Task Id : attempt_201001061331_0002_m_000027_0, Status : FAILED
java.lang.OutOfMemoryError: Java heap space
at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.(MapTask.java:498)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:305)
at org.apache.hadoop.mapred.Child.main(Child.java:158)

这个实际上是 Out Of Memory OOM问题。

其实这样的错误有时候并不是程序逻辑的问题(当然有可能是由于程序写的不够高效，产生的内存消耗不合理而导致)，而是由于同样的作业，在数据量和数据本身发生不同时就会占据不同数量的内存空间。由于hadoop的mapreduce作业的运行机制是：在jobtracker接到客户端来的job提交后，将许多的task分配到集群中各个tasktracker上进行分块的计算，而根据代码中的逻辑可以看出，其实是在tasktracker上启了一个java进程进行运算，进程中有特定的端口和网络机制来保持map 和reduce之间的数据传输，所以，这些OOM的错误，其实就是这些java进程中报出了OOM的错误。
知道了原因以后就好办了，hadoop的mapreduce作业启动的时候，都会读取jobConf中的配置（hadoop-site.xml），只要在该配置文件中将每个task的jvm进程中的-Xmx所配置的java进程的max heap size加大，就能解决这样的问题：

<property> 
  <name>mapred.child.java.opts</name> 
  <value>-Xmx1024m</value> 
</property>

我的xml文件中的默认配置为：

<property>
    <name>mapred.child.java.opts</name>
    <value> -Xmx72518104</value>
  </property>

PS：该选项默认是200M

新版本应该是在conf/hadoop-env.sh文件中修改。默认为1000M

转载地址：http://www.aboutyun.com/thread-8299-1-1.html

xiongxianze

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录