MapReduce细节流程及底层原理梳理——知识总结
MR整体流程:分片、格式化:分片操作:指的是将源文件划分为大小相等的小数据块(Hadoop 2.x 中默认 128MB ),也就是分片(split ),Hadoop 会为每一个分片构建一个 Map 任务,并由该任务运行自定义的 map() 函数,从而处理分片里的每一条记录。(MapTask的数量 == 文件分片的个数)格式化操作:将划分好的分片(split)格式化为键值对<key,value>形式的数据,其中, key 代表偏移量, value 代表每一行内容执行MapTa
复制链接