一直都没有发现,原理hdfs的命令行和客户端api的使用还是有很大差别的
现象:
将dfs.block.size设置成128M
现有28G的数据,理论上讲map的总数应该是224个,但是map数量却翻倍成448个
一直都找不出原因,使用hdfs命令行查看需要进行mapreduce的文件的block大小
然后通过hdfs fs -put 命令放进去的文件block大小就是128M
最后猜测应该是客户端API没有读到在构造Configuration对象时没有读到服务器上的*-site.xml导致的,将服务器上的*-site.xml放到客户端的根目录下实验了一下,果然OK了