1 集群启动及初始化配置问题
集群配置修改好后,往往需要重启。每个集群的重启方式不一样,需要根据集群具体设定。
例如:我们现有第三方平台的重启方式为:sh /opt/workspace/executor-proxy/sbin/app.sh restart
修改初始化内存分配的方式为:设置初始化内存为1g
pwd
/opt/workspace/executor-proxy/sbin
diff env.sh env.sh.bak
8c8
< export MEM=" -Xms1g -Xmx1g"
---
> export MEM=${MEM:-}
80c80
< export env=dev
---
> export env=dev
2大数据集群和基础平台的适配过程
这个过程要非常注意HDFS开启高可用之后的nameservice配置
3 HDFS升级HA过程
升级过程未成功,出现namenode都未启动情况:
格式化共享编辑目录
在后台分别格式化namenode
sudo -u hdfs hdfs namenode -format
sudo -u hdfs hdfs namenode -initializeSharedEdits
tail -f /var/log/hadoop-hdfs/hadoop-cmf-hdfs-NAMENODE-cdh-0001.log.out
执行命令一直不成功,日志出现
Running in non-interactive mode, and data appears to exist in QJM to [10.1.0.101:8485, 10.1.0.102:8485, 10.1.0.103:8485]. Not formatting.
问题原因:journalnode脏数据造成
解决方法:删除journalnode 数据存放路径下左右数据,然后重启journalnode,问题解决
其他问题 namenode datanode同理
4报错 Canary 测试无法在目录 tmp.cloudera_health_monitoring_canary_files 中创建文件
原因:查看日志,发现 Name node is in safe mode.
解决:sudo -uhdfs hdfs dfsadmin -safemode leave
注:重装要清空namenode和datanode的数据目录,或者保证cluster_id是一样的。如果出现金丝雀问题,请更改hdfs的权限验证,把勾去掉,把supergroup改成hdfs即可