MR过程和Shuffle详解

最新推荐文章于 2024-10-13 20:58:06 发布

像风一般

最新推荐文章于 2024-10-13 20:58:06 发布

阅读量1.8k

点赞数

分类专栏： hadoop 大数据文章标签： MR过程和Shuffle详解

本文链接：https://blog.csdn.net/weixin_44824330/article/details/102497707

版权

Shuffle作为MapReduce的关键步骤，涉及数据从map任务到reduce任务的传递。它旨在确保数据完整传输，同时减少网络消耗和磁盘IO影响。Map阶段，数据先缓存到内存，当达到一定阈值时溢写到磁盘并分区排序。Reduce阶段，领取并归并来自Map的任务数据进行处理。

摘要由CSDN通过智能技术生成

一 MR 过程

在这里插入图片描述

MR框架是使用InputFormat为map所需的数据进行预处理，并为其提供数据。两个功能：切片，封装keyvalue
因为InputSplit为逻辑切分而非物理拆分，所以说还需要RecoderReader根据InputSplit中的信息里处理InputSplit中的具体信息，加载数据并转换为合适的Map任务的keyvalue，输入给Map任务

Map是自定义的逻辑，根据InputFormat给定的相应数据结合场景进行相应的处理


为了让Reducer可以并处理Map的处理结果，需要对map的输出结果进行一定的分区（Partition）、排序（Sort）、合并（Combine）、归并（Merge）等操作，得到keyvalue形式的中间结果，再交给Reducer处理，这个过程就是Shuffle，从无序的keyvalue到有序有分区的keyvalue，这个过程称之为Shuffle很形象。

Reducer是自定义的逻辑，根据从不同的MapTask 节点拿过来的给定的相应数据结合场景进行相应的处理

OutputFormat进行输出，输出至分布式文件系统