启动hadoop，datanode节点启动失败：Initialization failed for Block pool.......

Miss C 不 emo

已于 2023-10-16 23:52:34 修改

阅读量555

点赞数

文章标签： hadoop 大数据分布式 hdfs

于 2023-10-16 23:38:15 首次发布

本文链接：https://blog.csdn.net/weixin_74606115/article/details/133861351

版权

一、实验环境

VMware、finalShell、hadoop、hive

每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，对比下记录的时间就知道了。一般出错的提示在最后面，通常是写着 Fatal、Error、Warning 或者 Java Exception 的地方

我是在做hadoop下载数据文本的时候出现的问题，在输入flume-ng agent -n a1 --conf-file user_behavior-men-hdfs.conf（这里是根据我的数据日志文件名命名） -Dflume.root.logger=INFO,console 显示我的datanode节点有问题，于是我查看我的进程jps，发现的确少了datanode这个节点
所以现在就要想办法把datanode节点恢复过来，使它可以运行，把datanode给提取出来具体查看它的问题解析，提取的指令：more hadoop-root-datanode-hadoop01.log（这里的hadoop01是我的master）
出现该问题的原因

多次hdfs格式化后，开始的namenode的clusterID会自动重新生成，而datanode的clusterID 则会保持不变。总结来说如果不删除数据和日志的话，重新格式化namenode会产生新的集群ID，这样会和datanode的集群ID产生冲突，导致namenode启动失败。

其次每次的namenode format都会重新创建一个namenodeId,而data目录下则包含了上次format时的id , namenode ，format。

清空了namenode下的数据,但是没有清空datanode下的数据,导致启动时失败,所以要做的就是每次fotmat前,清空data下的所有目录（这是最保证的方法）

四、解决办法

方法一：这是在本身数据内容不多的情况下进行，数据太多的话恢复会很困难。很难确定恢复完全。！！不管是方法一还是方法二都要先关闭hadoop集群，这里我用的是法二。

首先停掉集群，就是先进入到我们hadoop下的sbin文件然后输入：./hadoop.sh stop
删除问题节点的data目录下的所有内容。即删除 hadoop 节点配置路径下的残留文件分别是core-site.xml 、hdfs-site.xml 和tmp日志。
然后再重新格式化namenode。重新格式化指令：hdfs namenode -format
重新启动hadoop指令：同样在hadoop 下的sbin输入：./hadoop.sh start】

删除指令：rm -rf /opt/service/hadoop/etc/hadoop

首先停掉集群，跟上述的一样指令方法
然后将datanode节点目录/dfs/data/current/VERSION中的修改为与namenode一致就是按照错误的提示其实把 data/current/VERSION 中的clusterID 改为和 name/current/VERSION中的clusterID一致。我的是在/opt/service/hadoop/data/dfs/data/current然后根据错误的提示复制修改集群ID就可以了
之后我们重新启动集群，通过 jps命令查看，结果呈现
此时重新扫描配置flume-ng agent -n a1 --conf-file user_behavior-men-hdfs.conf （自己的配置命名）-Dflume.root.logger=INFO,console

然后就可以查看我们浏览器数据然后下载了

关注