Hdfs小文件治理策略以及治理经验

最新推荐文章于 2025-03-05 21:01:48 发布

李姓门徒

最新推荐文章于 2025-03-05 21:01:48 发布

阅读量1.8k

点赞数 16

分类专栏：分布式大数据 Hdfs 文章标签： hdfs hadoop 大数据

本文链接：https://blog.csdn.net/weixin_43845924/article/details/138426314

版权

小文件是 Hadoop 集群运维中的常见挑战，尤其对于大规模运行的集群来说可谓至关重要。如果处理不好，可能会导致许多并发症。Hadoop集群本质是为了TB,PB规模的数据存储和计算因运而生的。为啥大数据开发都说小文件的治理重要，说HDFS 存储小文件效率低下，比如增加namenode负载等，降低访问效率等？究竟本质上为什么重要？以及如何从本质上剖析小文件，治理小文件呢？今天就带你走进小文件的世界。

1. 什么是小文件？

日常生产中HDFS上小文件产生是一个很正常的事情，有些甚至是不可避免，比如jar，xml配置文件，tmp临时文件，流式任务等都是小文件的组成部分。当然更多的是因为集群设置不合理，造成一些意料之外的小文件产生。实际公司生产中对于小文件的大小没有一个统一的定义。一般公司集群的blocksize的大小在128/256两者居多。首先小文件大小肯定是要远小于blocksize的文件。一般公司小文件的大小定义如1Mb，8Mb,甚至16Mb，32Mb更大。根据公司实际集群状态定义，因为有些情况合并小文件需要消耗额外的资源。

既然剖析小文件，那么不可避免的要先剖析hdfs的存储原理。众多周知了，HDFS上文件的数据存储分为namenode元数据管理和实际数据文件。hdfs上的数据文件被拆分成块block，这些块block在整个集群中的datanode的本地文件系统上存储和复制，每个块也维护者自己的blockmeta信息。namenode主要维护这些文件的元数据信息，具体namenode的解析参考我的其他博客。

如下一个某个文件的某个block在data上存储的情况。