MapReduce
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。
特点:编程容易;分而治之策略(大规模数据集,会被切成许多独立分片,分片由多个Map任务);计算向数据靠拢(设计理念)
函数 |
输入 |
输出 |
说明 |
Map |
<k1,v1>如: <行号,”a b c”> |
List(<k2,v2>) 如: <“a”,1> <“b”,1> <“c”,1> |
1.将小数据集进一步解析成一批<key,value>对,输入Map函数中进行处理 2.每一个输入的<k1,v1>会输出一批<k2,v2>。<k2,v2>是计算的中间结果
|