ReduceTask有几种排序方式以及排序发生的阶段？

最新推荐文章于 2024-07-11 16:34:57 发布

亚当-麦当当

最新推荐文章于 2024-07-11 16:34:57 发布

阅读量467

点赞数 11

分类专栏： hadoop 文章标签：大数据数据库开发数据库 hadoop

本文链接：https://blog.csdn.net/weixin_49811843/article/details/139749130

版权

3 篇文章 0 订阅

订阅专栏

在MapReduce框架中，ReduceTask的排序主要包括两种方式：排序（Sort）和分组（Grouping）。这些排序操作发生在不同的阶段，以确保数据按键进行处理。

排序（Sort）：
- 这是对键进行排序的过程。在shuffle过程中，来自不同Mapper的键值对会被传输到Reducer，并按照键进行排序。
- 常用的排序方式有部分排序、全排序、辅助排序、二次排序、自定义排序。
分组（Grouping）：
- 在Reducer处理数据之前，会将相同键的键值对分组。这个分组操作通常是在排序之后进行的，以便Reducer可以一次性处理所有相同键的值。

Shuffle阶段：
- Mapper端的排序： 在Mapper端，Mapper输出的键值对首先被分区（Partitioning）并在每个分区内进行排序。这个排序在Mapper任务结束时发生，并且是对Mapper本地数据的排序。
- 数据传输和合并： 在数据传输到Reducer的过程中，会进行本地合并（Combining）操作。Combiner也会对数据进行局部的排序，以减少传输数据量。
Sort阶段（Reducer端）：
- 合并和排序： 当数据到达Reducer端时，Reducer会接收到来自不同Mapper的分区数据，这些数据会被合并并按照键进行全局排序。这是一个多路归并排序（Merge Sort）过程，确保所有相同键的值都在一起。
- 分组： 在排序完成后，Reducer会对相同键的值进行分组，以便Reducer可以依次处理每组键值对。