MR数据处理流程
4台机器作为运算资源的机器来处理数据,
将处理的数据进行任务划分,根据数据的大小划分
4机器并行处理数据
输出数据任务划分,在分区器内对数据的hascode进行取模,有几台机器就进行几次取模,根据hascode分给运算机器进行处理
最后保存最终结果
Map阶段主要是将待处理的大量数据进行任务划分,并行处理数据
通过分区器进行规则划分,将相同的单词分配到一个任务上[分区中]合并
reducer端:并行计算 分别处理数据自己分区的数据进行全局合并并得到最后结果保存在介质中(HDFS)