split 分片
blocksize 128M
比如300MB的文件,blocksize默认为128M
分成3块
如果是128.01MB,128有buffer,10%,其实是一个块
3.map
word=>(word,1) kv键值对
4.shuffle(耗内存)
洗牌
默认按照key的hash值进行分发
相同的key肯定要分发到同一个reduce任务上去
做汇总操作
5.reduce
汇总,对value做加法
6.result
输出成文件
output
_SUCCESS