当Hadoop遇上小文件

最新推荐文章于 2022-10-17 16:46:53 发布

xtqve

最新推荐文章于 2022-10-17 16:46:53 发布

阅读量624

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/xtqve/article/details/10380301

版权

hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、什么是小文件？
小文件就是指那些小于hdfs一个block大小的文件。
2、这样的文件hadoop支持怎么样？
小文件会给hadoop的扩展性和性能带来严重问题。小文件在hadoop中主要存在两个方面的问题，一个是hdfs存储，一个是mapreduce计算。
hdfs中，任何block，文件或目录在内存中均以对象的方式存储，一个对象的大小是150kb，那么一千万个文件就需要2G的内存，这个时候，namenode内存容量严重制约了集群的扩展。
在mapreduce中，访问大量小文件速度远远小于几个大文件（寻址时间）。
同时，每一个小文件和大文件一样，在split的时候，会产生一个map task线程，这个时候，大量小文件会产生大量的task线程，而这个时候将花费大量的时间在task的启动和释放上。

3、既然小文件有性能问题，那么如何解决这些问题呢？
hadoop本身提供了三种解决小文件问题的方案：
1、生成HAR文件
HAR(hadoop archive)是一个高效的将小文件放入hdfs的文件存档工具，它能将多个小文件打包成一个HAR文件，这样在减少namenode内存使用的同时，还允许对文件进行透明的访问。
缺点：需要人工的干预，适合管理人员的操作，而且har一旦创建，archives便不可改变，不能应用于多用户的互联网操作。
2、SequenceFile和MapFile
SequenceFile是由一系列二进制的key/value组成，如果key为小文件名，value为文件内容，即可以将大批小文件合并成一个大文件。
该方案对于小文件的存储和读写都比较自由，不限制用户和文件的多少
缺点：SequenceFile一旦创建不能再次append，同时如果write流不关闭的话，没办法构造read流，也就是执行文件写操作的时候，该文件是不可读取的。
3、CombineFileInputFormat
CombineFileInputFormat是一种新的inputformat，用于将多个文件合并成一个单独的split，另外它会考虑数据的存储位置。