加速HDFS集群 RaidNode数据 退役的方法
加速集群退役的方法,结合以往的经验和当前的信息看,阻碍集群退役的block都是RaidNode数据。
减少退役的数据的中转量
1 增加每次退役的节点数 (一次退役100台节点运输的数据量要比二次退役50台节点的运输量大,有中间转移的消耗)
2 边退役边迁移,优先迁移raid数据(减少数量的总量)
针对RaidNode数据的block卡住
1 关闭raid,所有数据升三副本
2 暂时关闭 RaidNode的移动block功能,hdfs.raid.block.move.simulate来设置为true。
针对退役的瓶颈问题
目前看退役的瓶颈在DataNode端,目前是一次性添加若干节点,直到退役完。可以修改在NameNode端维持一定数量的DataNode,退役一台DataNode就在NameNode端添加一台,脚本可以参考如下。
加速HDFS集群 RaidNode数据 退役的方法
[外链图片