HADOOP调优
配置HDFS多目录存储
生产中可能某台机器磁盘空间不够了我们新加了磁盘。
如上图所示,机器挂载了四块磁盘,但是hdfs默认的存储路径dfs.datanode.data.dir只会指向一个目录,我们需要加以调整。
做以上修改即可。
集群数据均衡
1)不同机器间数据均衡
start-balancer.sh -threshold 10
该参数的意思是让每台机器的磁盘空间利用率不超过10%(尽量不要让namenode节点执行该命令)
2)同一机器不同磁盘数据均衡
1、生成均衡计划
hdfs diskbalancer -plan 机器名
2、执行均衡计划
hdfs diskbalancer -execute 机器名.plan.json
3、查看任务执行情况
hdfs diskbalancer -query 机器名
4、取消均衡任务
hdfs diskbalancer -cancer 机器名.plan.json