如何处理mapper数量的大小的问题

最新推荐文章于 2022-10-12 14:18:56 发布

yyqq188

最新推荐文章于 2022-10-12 14:18:56 发布

阅读量2.1k

点赞数 1

文章标签：格式化 hadoop 大数据 hdfs

减小Map-Reduce job 启动时创建的Mapper数量当处理大批量的大数据时，一种常见的情况是job启动的mapper数量太多而超出了系统限制，导致Hadoop抛出异常终止执行。解决这种异常的思路是减少mapper的数量。具体如下：

一，输入文件size巨大，但不是小文件这种情况可以通过增大每个mapper的input size，即增大minSize或者增大blockSize来减少所需的mapper的数量。增大blockSize通常不可行，因为当HDFS被hadoop namenode -format之后，blockSize就已经确定了（由格式化时dfs.block.size决定），如果要更改blockSize，需要重新格式化HDFS，这样当然会丢失已有的数据。所以通常情况下只能通过增大minSize，即增大mapred.min.split.size的值。

二，输入文件数量巨大，且都是小文件所谓小文件，就是单个文件的size小于blockSize。这种情况通过增大mapred.min.split.size不可行，需要使用FileInputFormat衍生的CombineFileInputFormat将多个input path合并成一个InputSplit送给mapper处理，从而减少mapper的数量。具体细节稍后会更新并展开。

增加Map-Reduce job 启动时创建的Mapper数量增加mapper的数量，可以通过减小每个mapper的输入做到，即减小blockSize或者减小mapred.min.split.size的值。

yyqq188

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
如何处理mapper数量的大小的问题

减小Map-Reduce job 启动时创建的Mapper数量当处理大批量的大数据时，一种常见的情况是job启动的mapper数量太多而超出了系统限制，导致Hadoop抛出异常终止执行。解决这种异常的思路是减少mapper的数量。具体如下：一，输入文件size巨大，但不是小文件这种情况可以通过增大每个mapper的input size，即增大minSize或者增大blockSize来减
复制链接

扫一扫