Hadoop balancer优化HDFS存储问题

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB,到CM上查看集群状态时发现一个DataNode节点存储已经满了,我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。介绍下balancer:balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁...
摘要由CSDN通过智能技术生成

今天早上起来在查看flume采集数据到hdfs的文件列表时发现单个生成的文件都是几十KB或者几百KB,到CM上查看集群状态时发现一个DataNode节点存储已经满了,我估计因为这影响了flume生成文件。于是使用了Hadoop的balancer小工具。
介绍下balancer:balancer是当hdfs集群中一些datanodes的存储要写满了或者有空白的新节点加入集群时,用于均衡hdfs集群磁盘使用量的一个工具。这个工具作为一个应用部署在集群中,可以由集群管理员在一个live的cluster中执行。

Rebalance程序作为一个独立的进程与name node进行分开执行。
1 Rebalance Server从Name Node中获取所有的Data Node情况:每一个Data Node磁盘使用情况。
2 Rebalance Server计算哪些机器需要将数据移动,哪些机器可以接受移动的数据。并且从Name Node中获取需要移动的数据分布情况。
3 Rebalance Server计算出来可以将哪一台机器的block移动到另一台机器中去。
4,5,6 需要移动block的机器将数据移动的目的机器上去,同时删除自己机器上的block数据。
7 Rebalance Server获取到本次数据移动的执行结果,并继续执行这个过程,一直没有数据可以移动或者HDFS集群以及达到了平衡的标准为止。

1-7为一个迭代,这个工具迭代的把数据块从利用率高的datanode移到利用率低的datanode。

balancer在如下5种情况下会自动退出:

①集群已达到均衡状态;

②没有block能被移动;

③连续5次迭代移动没有任何一个block被移动;

④当与namenode交互式出现了IOException;

⑤另一个balancer在运行中。

<
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值