一般来讲,在yarn中默认是没有开启Jobhistory服务的,需要自己手动打开。
首先需要在hadoop的etc/hadoop的mapred-site.xml中添加如下内容:
<property>
<name>mapreduce.jobhistory.address</name>
<value>主机名字:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>主机名字:19888</value>
</property>
然后还需要在yarn-site.xml中添加
开启服务
<property>
<name>yarn.log.aggregation-enable</name>
<value>true</value>
</property>
至于日志保存时间可以根据情况设置
然后重点来了。肯定很多人都是这样
没有开启jobHistoryServer
应该在hadoop的sbinwen文件下手动输入
mr-jobhistory-daemon.sh start historyserver
然后我们查看yarn的web端
在window上面想要查看日志跳转,需要设置好集群的ip的用户名。
修改C:\Windows\System32\drivers\etc
下的hosts
文件,因为直接修改没有权限,因此将修改好的hosts文件保存在桌面,然后覆盖掉原来的文件即可。
加上集群机器的hosts即可
效果就是支持在yarn上查看map 和 reducer运行的时间
总结:最后我们通过查看每个reduce的工作时间判断是否出现数据倾斜的问题,这是很有用的。