今天在登录CDH后发现HDFS上存在运行状况报警
由于CM会默认每隔1小时SNN会执行checkpoint操作,初步分析是SNN的checkpoint操作存在问题引起,查看SNN日志,发现如下报错。
很明显是由于SNN和NN的集群ID对不上导致的,分别查看NN所在节点(此处节点node0,文件路径/dfs/nn/current)和SNN所在节点(此处节点node1,文件路径/dfs/snn/current)的version文件确认。
应该是重装hdfs服务的时候,应该是保留了之前SNN的version文件,导致集群ID不一致,清空SNN所在节点/dfs/nn/current路径下的内容,重启SNN,问题解决。