深入浅出分布式【MapReduce】 (MIT 6.824)

最新推荐文章于 2024-07-06 17:16:14 发布

ky14

最新推荐文章于 2024-07-06 17:16:14 发布

阅读量1.3k

点赞数

文章标签： MapReduce 分布式系统

本文链接：https://blog.csdn.net/yek14/article/details/43852925

版权

概述

大名鼎鼎的MapReduce，作为MIT 6.824课程的入门级材料，实在是给了不少人学下去的动力（比如我自己…）。

什么是MapReduce？简而言之，它是一种计算模型。这种计算模型将一个任务的计算分为了Map和Reduce两个阶段（好像什么都没讲…），每个阶段都有若干个Worker执行相同的Map或者Reduce函数，而这两个函数都是用户自己定义的。其中，Map函数的输入值为一对Key/Value Pair，并输出一个过渡状态下（intermediate）的Key/Value Pair的集合。MapReduce库会自动将那些具有相同的intermediate Key的Value再次组合在一起。而Reduce函数的输入就是这个intermediate Key及其对应的Value列表，大多数情况下，用户定义的Reduce函数会将列表中的这些Value再次处理下（比如统计个数、最值等），并返回处理后的值。

这样说可能还是有点抽象。我们以最经典的Word Count为例，该任务是要统计给定的一些文章中每个Word出现的次数。在MapReduce模型下，用户所需提供的Map函数大致会是这样

map (String key, String value):
// key: Document name
// value: Document contents
  for each word w in value:
    EmitIntermediate(w, 1)

reduce (String key, List values):
// key: a word
// values: a list of 1
  Emit(len(values))

其运行流程如下：

若干个Worker被分配了Map任务，不同的Key保证了每个Worker读取的文件并不一样。Map任务中，针对一片文章（Value）的每个词w，该函数都会输出一个过渡状态的键/值对{w: 1}；
在全部Worker的Map任务都结束后，MapReduce库通过某种神奇的手段将每个过渡态的Key w所对应的Value都组合在了一起。这样，假设foo这个词在全部输入文档中出现了n次，我们就会得到一个{‘foo’:[ $1, 1, \cdots, 1$ ]}的过渡态Key/List Pair。其中[ $1, 1, \cdots, 1]$ 的长度为n；
随后，若干个Worker又会被分配了Reduce任务。Reduce函数的输入便是步骤2里的Key/List Pair。此例中我们关心的只是一个词出现的次数，也即List的长度，因此Map中输出的键/值对中具体是什么值其实并没有很大影响（1可以替换为其他任何值）。Reduce函数会输出它针对该Key所得到的最终的计算结果。
最后，MapReduce库再将每个过渡Key及其对应的Reduce结果整合在一个文件中并返回给用户。