mapreduce中FileInputFormat与TextInputFormat解析以及HDFS小文件优化

最新推荐文章于 2022-10-18 20:19:46 发布

「已注销」

最新推荐文章于 2022-10-18 20:19:46 发布

阅读量555

点赞数

文章标签： hadoop hdfs mapreduce

本文链接：https://blog.csdn.net/weixin_46293354/article/details/109334977

版权

在map阶段，文件先被切分成split块，而后每一个split切片对应一个Mapper任务

FileInputFormat这个类先对输入文件进行逻辑上的划分,以128M为单位,将原始数据从逻辑上分割成若干个split,每个split切片对应一个Mapper任务
TextInputFormat这个类随后将每个split块中的每行记录解析成一个一个的键值对，即<k1,v1>

在这里插入图片描述

hdfs大量的小文件势必影响NameNode的寿命，因为文件元数据存储在NameNode的内存中，影响计算引擎的任务数量，比如每个小的文件都会生成一个Map任务

解决小文件过多的问题有以下几种方法

对小文件进行归档（Har），将众多的小文件打包成一个har 文件，但由于har是目录，其只能减轻namenode压力，无法在mapreduce中起作用
采用ConbinFileInputFormat来作为输入，解决输入端大量小文件场景。ConbinFileInputFormat可以将多个小文件合并到一个inputsplit里面，用一个map来处理
启用jvm重用，多个顺序执行的task之间jvm不会关闭，可以避免频繁启动jvm的资源消耗。

关注