一直都没有发现,原理hdfs的命令行和客户端api的使用还是有很大差别的
现象:
将dfs.block.size设置成128M
现有28G的数据,理论上讲map的总数应该是224个,但是map数量却翻倍成448个
一直都找不出原因,使用hdfs命令行查看需要进行mapreduce的文件的block大小
然后通过hdfs fs -put 命令放进去的文件block大小就是128M
最后猜测应该是客户端API没有读到在构造Configuration对象时没有读到服务器上的*-site.xml导致的,将服务器上的*-site.xml放到客户端的根目录下实验了一下,果然OK了
本文探讨了HDFS中设置block size为128M时,实际map数量翻倍的问题。通过对比命令行与客户端API操作的不同,揭示了客户端API未能正确加载配置文件导致的block大小设置错误,并给出了解决方案。

被折叠的 条评论
为什么被折叠?



