Flume hdfs sink 小文件问题的解决

HDFS存入大量元数据的影响

HDFS存入大量小文件,有什么影响?

元数据层面:每个小文件都有一份元数据,其中包括文件路径,文件名,所有者,所属组,权限,创建时间等,这些信息都保存在 Namenode 内存中(大的文件块和小的文件块都占用NameNode150字节的内存)。

所以小文件过多,会占用 Namenode 服务器大量内存,影响 Namenode 性能和使用寿命。

计算层面:默认情况下MR会对每个小文件启用一个MapTask计算,非常影响计算性能。同时也影响磁盘寻址时间。

产生的原因

官方默认的这三个参数配置写入HDFS后会产生小文件:

Name Default Description
hdfs.rollInterval 30 Number of seconds to wait before rolling current file (0 = never roll based on time interval)
hdfs.rollSize 1024 File size to trigger roll, in bytes (0: never roll based on file size)
hdfs.rollCount 10 Number of events writ
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值