1.流程介绍
1.1 提交文件到mapreduce,假如文件大小为260M,但块的默认大小为128M。
1.2 这个文件会被进行split,分割成三个块,大多数split分割都是按照块进行的。
1.3 被分割的文件进行map映射,这时候启动的task数量为3
1.4 在进行reduce之前,会先进行shuffle,就是相同的key通过网络传输 拉到一起,当某个key的数据量特别大,会有数据倾斜。
1.5 reduce就是将之前的数据进行一个整合,最终输出到一个文件中,默认task数量为1 , 参数:mapreduce.job.reduces