MapReduce 归并排序利用之高效TopN案例
MapReduce 归并排序利用之高效TopN案例
1.MapReduce排序
根据mapreduce的内部机制可知,分区和排序贯穿整个过程。
maptask的key,value输出到环形缓冲区中,
每个maptask的数据从环形缓冲区溢写到临时文件,
相同maptask的临时文件合并为一个文件,
reduce从maptask产生的文件中针对key进行分组提取。
这些排序,默认都是根据key来进行字符串升序排序,也就是ASCII码表的字母顺序升序排序。
2.问题
当需要对一个很大的分布式文件中数据
原创
2020-08-22 21:30:27 ·
921 阅读 ·
0 评论