调试mapreduce与调试hadoop源码不相同,调试hadoop的namenode和一下job可以通过下面这些配置:
HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"
#HADOOP_SECONDARYNAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8789,server=y,suspend=y"
#HADOOP_DATANODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8790,server=y,suspend=y"
#HADOOP_BALANCER_OPTS="-agentlib:jdwp=transport=dt_socket,address=8791,server=y,suspend=y"
#HADOOP_JOBTRACKER_OPTS="-agentlib:jdwp=transport=dt_socket,address=8792,server=y,suspend=y"
#HADOOP_TASKTRACKER_OPTS="-agentlib:jdwp=transport=dt_socket,address=8793,server=y,suspend=y"
注意上面这些配置时加入到hadoop-env.sh中,一次最好放开一个,否则可能会出现错误。
但是在本地的eclipse上面调试写好的mapreduce就比较麻烦了,需要远程调试,可以在hadoop的hadoop_home/conf/mapred-site.xml中加入下面这几句话:
<property>
<name>mapred.child.java.opts</name>
<value>-agentlib:jdwp=transport=dt_socket,address=8883,server=y,suspend=y</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>1</value>
</property>
<property>
<name>mapred.job.reuse.jvm.num.tasks</name>
<value>-1</value>
</property>
其中第一个属性指定监听端口,也可以直接在项目中的src目录下面新建mapred-site.xml,把hadoop的这个文件的内容复制到这里即可。然后开始执行次程序。那么就会在map停住0%,这时候你在debug configuration中的远程(remote java application)新建一个,host是linux的地址,端口就是配置的监听端口,然后apply--debug,就会停在你打的断点除了。