MapReduce基础笔记

最新推荐文章于 2023-12-21 14:44:12 发布

wpheternal

最新推荐文章于 2023-12-21 14:44:12 发布

阅读量385

点赞数

分类专栏： hadoop笔记文章标签： hadoop mapreduce

本文链接：https://blog.csdn.net/zhizhong0209/article/details/110494572

版权

本文详细介绍了MapReduce编程模型，包括MapReduce的分而治之思想，Map阶段、Reduce阶段的工作原理，以及如何通过编程实现MapReduce任务。通过词频统计实例，解析了Map阶段的key-value处理和Reduce阶段的分组与聚合操作。此外，还涵盖了本地和集群运行MapReduce程序的方法，以及通过Web UI查看运行结果。

摘要由CSDN通过智能技术生成

MapReduce编程模型

一、 MapReduce知识要点

1. MapReduce编程模型

Hadoop架构

Hadoop由HDFS分布式存储、MapReduce分布式计算、Yarn资源调度三部分组成
MapReduce是采用一种分而治之的思想设计出来的分布式计算框架
那什么是分而治之呢？
- 比如一复杂、计算量大、耗时长的的任务，暂且称为“大任务”；
- 此时使用单台服务器无法计算或较短时间内计算出结果时，可将此大任务切分成一个个小的任务，小任务分别在不同的服务器上并行的执行；
- 最终再汇总每个小任务的结果
MapReduce由两个阶段组成：
- Map阶段（切分成一个个小的任务）
- Reduce阶段（汇总小任务的结果）

1.1 Map阶段

map阶段有一个关键的map()函数；
此函数的输入是键值对
输出是一系列键值对，输出写入本地磁盘。

1.2 Reduce阶段

reduce阶段有一个关键的函数reduce()函数
此函数的输入也是键值对（即map的输出（kv对））
输出也是一系列键值对，结果最终写入HDFS

1.3 Map&Reduce

2. MapReduce编程示例

以MapReduce的词频统计为例：统计一批英文文章当中，每个单词出现的总次数

2.1 MapReduce原理

Map阶段
- 假设MR的输入文件“Gone With The Wind”有三个block；block1、block2、block3
- MR编程时，每个block对应一个分片split
- 每一个split对应一个map任务（map task）
- 有3个map任务（map1、map2、map3）；这3个任务的逻辑一样，所以以第一个map任务（map1）为例分析
- map1读取block1的数据；一次读取block1的一行数据；
- 产生键值对(key/value)，作为map()的参数传入，调用map()；
- 假设当前所读行是第一行
- 将当前所读行的行首相对于当前block开始处的字节偏移量作为key（0）
- 当前行的内容作为value（Dear Bear River）
- map()内，将value当前行内容按空格切分，得到三个单词Dear | Bear | River
- 将每个单词变成键值对，输出出去(Dear, 1) | (Bear, 1) | (River, 1)；结果最终写入map任务所在节点的本地磁盘中（内里还有细节，讲到shuffle时，再细细展开）
- block的第一行的数据被处理完后，接着处理第二行；逻辑同上
- 当map任务将当前block中所有的数据全部处理完后，此map任务即运行结束
- 其它的每一个map任务都是如上逻辑，不再赘述
Reduce阶段
- reduce任务（reduce task）的个数由自己写的程序编程指定，如job.setNumReduceTasks(4)指定reduce任务是4个（reduce1、reduce2、reduce3、reduce4）
- 每一个reduce任务的逻辑一下，所以以第一个reduce任务（reduce1）为例分析
- map1任务完成后，reduce1通过网络，连接到map1，将map1输出结果中属于reduce1的分区的数据，通过网络获取到reduce1端（拷贝阶段）
- 同样也如此连接到map2、map3获取结果
- 最终reduce1端获得4个(Dear, 1)键值对；由于key键相同，它们分到同一组；
- 4个(Dear, 1)键值对，转换成[Dear, Iterable(1, 1, 1, )]，作为参数传入reduce()
- 在reduce()内部，计算Dear的总数为4，并将(Dear, 4)作为键值对输出
- 每个reduce任务最终输出文件（内里还有细节，讲到shuffle时，再细细展开），文件写入到HDFS

2.2 MR中key的作用

MapReduce编程中，key有特殊的作用
- 数据中，若要针对某个值进行分组、聚合时，需将此值作为MR中的reduce的输入的key
- 如当前的词频统计例子，按单词进行分组，每组中对出现次数做聚合（汇总计算总和）；所以需要将每个单词作为reduce输入的key，MapReduce框架自动按照单词分组，进而求出每组即每个单词的总次数
- 另外，key还具有可排序的特性，因为MR中的key类需要实现WritableComparable接口；而此接口又继承Comparable接口（可查看源码）
- MR编程时，要充分利用以上两点；根据实际业务需求，设置合适的key

2.3 创建MAVEN工程

所有编程操作，在hadoop集群某节点的IDEA中完成

使用IDEA创建maven工程
pom文件参考提供的pom.xml，主要用到的dependencies有

    <properties>
        <cdh.version>2.6.0-cdh5.14.2</cdh.version>
    </properties>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

    <dependencies>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.0-mr1-cdh5.14.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${cdh.version}</version>
        </dependency>
        <dependency