不知道怎么把Standby NameNode 搞挂了之后就一直重启不成功,可能是由于执行了一次格式化,尝试了把Standby NameNode的clusterID保持一致,但是还是怎么都没重启成功,还是要好好看报错信息,很多次执行hdfs namenode -bootstrapStandby有报错,但是没注意看,以为成功了,接着执行后面的。
方案
- 确保Active NameNode是正常工作
- 不要从Active NameNode节点/hadoop/hdfs/namenode目录下拷贝任何数据到Standby NameNode.
- 在Standby NameNode节点上执行 hdfs namenode -bootstrapStandby. 该命令会回复Standby NameNode节点的元数据(执行这个发生错误)
然后把这个current文件移动到别的位置,又出现了别的问题,但是这个报错信息消失了。权限拒绝,
执行:1. 切换到hdfs用户, 2. 检查集群的状态
su - hdfs
hdfs dfsadmin -report
再次执行:hdfs namenode -bootstrapStandby,然后继续执行后面的步骤。
4. 通过Ambari启动Standby NameNode
5. 通过Ambari重启ZKFailoverController
事后可以通过jps看看是否出现namenode