注意:
1、如果一个文件的大小小于这个机器上获取的文件的1.1倍时,则会默认为这个文件为一个文件进行处理
2、文件的大小越小对像处理的时间要求就越大
3、一个切片就会交给一个mapTask,也真是消耗时间的原因
4、默认的切片的大小是默认的块的大,即使:splisize = blocksize
5、修改块的大小文件为:hdfs-site.xml 的
<property>
<name>dfs.block.size</name>
<value>512000</value>
</property>
6、通过设置块的大小可以调系统的性能