Hadoop基本介绍(4)
MapMap的输出到内存Reduce数据读取Map到reduce内存角度宏观流程Map到reduce处理流程角度宏观步骤Shuffle阶段如何能够让Map执行效率最高如何能够让Reduce执行效率最高Map的输出到内存Map的输出先写入环形缓冲区(默认大小100M-可以认为调整)(可以再输出的同时写入数据),当缓冲区内的数据达到阈值(默认0.8-可以人为调整)时,对数据进行flash。flash 出去的数据的数量达到一定量(默认4个)时,进行数据的合并Reduce数据读取Reduce 主动
复制链接