一、问题描述
当我多次格式化文件系统时,如
[root@master]# cd /usr/local/hadoop/etc/bin/hdfs namenode -format
会出现datanode无法启动,查看日志(/usr/local/hadoop/logs/hadoop-hadoop-datanode-xsh.log),发现错误为:
2018-05-15 21:22:14,616 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000. Exiting.
java.io.IOException: Incompatible clusterIDs in /usr/local/hadoop/tmp/dfs/data: namenode clusterID = CID-fd069c99-8004-47e1-9f67-a619bf4e9b60; datanode clusterID = CID-9a628355-6954-473b-a66c-d34d7c2b3805
二、问题产生原因
当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.namenode.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录clusterID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存(即配置文件中dfs.data.dir在本地系统的路径)的current/VERSION文件只是你第一次格式化时保存的namenode的ID,因此就会造成datanode与namenode之间的 id 不一致。
三、解决办法
把配置文件中dfs.datanode.data.dir在本地系统的路径下的current/VERSION中的clusterID改为与namenode一样。重启即可!(还有一种办法是删除dfs文件夹,http://dblab.xmu.edu.cn/blog/818-2/,http://dblab.xmu.edu.cn/blog/install-hadoop/)。
此外,若是Datanode没有启动,请尝试如下方法(注意这会删除HDFS上原有的数据,如果原有数据很重要请不要这么操作!):
# 关闭
./sbin/stop-dfs.sh
# 删除tmp文件
rm -rf ./tmp
# 重新格式化
./bin/hdfs namenode -format
# 重启
./sbin/start-dfs.sh