hadoop-HDFS企业中负载均衡

在进行文件上传的时候会优先选择客户端所在节点,如果习惯性使用同一个客户端会造成客户端所在节 点存储的数据比较多。集群会有一个自动的负载均衡的操作,只不过这个负载均衡的操作比较慢。
机器与机器之间磁盘利用率不平衡是HDFS集群非常容易出现的情况,例如:当集群内新增、删除节
点,或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时,Map任务可能会分配到没有存储数据 的机器,这将导致网络带宽的消耗,也无法很好的进行本地计算。
当HDFS负载不均衡时,需要对HDFS进行数据的负载均衡调整,即对各节点机器上数据的存储分布进行 调整。从而,让数据均匀的分布在各个DataNode上,均衡IO性能,防止热点的发生。进行数据的负载 均衡调整,必须要满足如下原则:
数据平衡不能导致数据块减少,数据块备份丢失
管理员可以中止数据平衡进程
每次移动的数据量以及占用的网络资源,必须是可控的 数据均衡过程,不能影响 namenode 的正常工作

在Hadoop中,包含一个 start-balancer.sh 脚本,通过运行这个工具,启动 HDFS 数据均衡服务。
该工具可以做到热插拔,即无须重启计算机和 Hadoop 服务。
命令:

sbin/start-balancer.sh 
sbin/start-balancer.sh -threshold 5 
sbin/start-balancer.sh -t 10% 

机器容量最高的那个值 和 最低的那个值得差距不能超过10%

自动进行均衡非常慢,一天能移动的数据量在10G-10T的级别,很难满足超大集群的需求,原因: HDFS集群默认不允许balance操作占用很大的网络带宽,这个带宽是可以调整的

hdfs dfsadmin -setBalanacerBandwidth newbandwidth 
hdfs dfsadmin -setBalanacerBandwidth 10485760

该数值的单位是字节,上面的配置是10M/s,默认是1M/s

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值