最近一直都在研究 Mahout算法,hadoop集群也没怎么改动;今天突然想停了hadoop 集群,但是发现根本停不下来。执行 ./bin/stop-all.sh 命令一直提示没有可停止的job、task、namenode、datanode、secondarynode。可是输入 jps 命令,发现hadoop 已经启动了,而且 HDFS连接正常。后来在同事的指导下,明白了;原来 hadoop启动后,进程信息默认保存在 /tmp 文件夹。信息如下:
-rw-rw-r-- 1 hadoop hadoop 5 Aug 5 11:04 hadoop-hadoop-datanode.pid
-rw-rw-r-- 1 hadoop hadoop 5 Aug 5 11:04 hadoop-hadoop-jobtracker.pid
-rw-rw-r-- 1 hadoop hadoop 5 Aug 5 11:04 hadoop-hadoop-namenode.pid
-rw-rw-r-- 1 hadoop hadoop 5 Aug 5 11:04 hadoop-hadoop-secondarynamenode.pid
-rw-rw-r-- 1 hadoop hadoop 5 Aug 5 11:04 hadoop-hadoop-tasktracker.pid
而 /tmp 文件夹会定时清空,所以一段时间后,hadoop的进程信息都会被删除掉;这样你下次停止集群的时候,就会停止不了。
解决方法:
1. 参考 stop-all.sh 脚本文件代码,手动停止所有相关进程。
停止顺序: job 、task、namenode、datanode、secondarynode
2. 重新启动集群,再次查看 /tmp 文件夹,你会看到以上进程信息。这个时候执行 stop-all.sh 命令能正常关闭 hadoop集群了。
3. 如果你不想每次都这么麻烦,可以修改脚本代码。