文件按照128M的大小进行分片,每个分片启动一个MapTask进行文件的处理。首先按照分区字段进行数据的分区,写入到环形缓冲区,环形缓冲区超过百分之80后会进行溢出操作,溢出的数据采用快排的方式进行排序,形成小文件。小文件采用归并排序的方法再次进行排序(当部分文件有序,归并排序效率较高)。然后对数据进行规约(类似提前进行reducer),形成临时文件,临时文件是按照分区文件进行区分的。
Reducer阶段会自动拉取对应分区的数据,进行处理。(缓冲区的作用是为了平衡数据读和存的速度差异)拉取的数据会溢写到小文件,小文件经过归并排序合并成大文件,再进行分组,形成ReduceTask要执行的数据结构,进行数据的处理,最后输出文件
# 博学谷IT 技术支持