MapReduce基础笔记

本文详细介绍了MapReduce编程模型,包括MapReduce的分而治之思想,Map阶段、Reduce阶段的工作原理,以及如何通过编程实现MapReduce任务。通过词频统计实例,解析了Map阶段的key-value处理和Reduce阶段的分组与聚合操作。此外,还涵盖了本地和集群运行MapReduce程序的方法,以及通过Web UI查看运行结果。
摘要由CSDN通过智能技术生成

MapReduce编程模型

一、 MapReduce知识要点

1. MapReduce编程模型

  • Hadoop架构

    Hadoop由HDFS分布式存储、MapReduce分布式计算、Yarn资源调度三部分组成

  • MapReduce是采用一种分而治之的思想设计出来的分布式计算框架

  • 那什么是分而治之呢?

    • 比如一复杂、计算量大、耗时长的的任务,暂且称为“大任务”;
    • 此时使用单台服务器无法计算或较短时间内计算出结果时,可将此大任务切分成一个个小的任务,小任务分别在不同的服务器上并行的执行;
    • 最终再汇总每个小任务的结果
  • MapReduce由两个阶段组成:

    • Map阶段(切分成一个个小的任务)
    • Reduce阶段(汇总小任务的结果)
1.1 Map阶段
  • map阶段有一个关键的map()函数;
  • 此函数的输入是键值对
  • 输出是一系列键值对,输出写入本地磁盘
1.2 Reduce阶段
  • reduce阶段有一个关键的函数reduce()函数

  • 此函数的输入也是键值对(即map的输出(kv对))

  • 输出也是一系列键值对,结果最终写入HDFS

1.3 Map&Reduce

2. MapReduce编程示例

  • MapReduce的词频统计为例:统计一批英文文章当中,每个单词出现的总次数
2.1 MapReduce原理
  • Map阶段
    • 假设MR的输入文件“Gone With The Wind”有三个block;block1、block2、block3
    • MR编程时,每个block对应一个分片split
    • 每一个split对应一个map任务(map task)
    • 有3个map任务(map1、map2、map3);这3个任务的逻辑一样,所以以第一个map任务(map1)为例分析
    • map1读取block1的数据;一次读取block1的一行数据;
    • 产生键值对(key/value),作为map()的参数传入,调用map();
    • 假设当前所读行是第一行
    • 将当前所读行的行首相对于当前block开始处的字节偏移量作为key(0)
    • 当前行的内容作为value(Dear Bear River)
    • map()内,将value当前行内容按空格切分,得到三个单词Dear | Bear | River
    • 将每个单词变成键值对,输出出去(Dear, 1) | (Bear, 1) | (River, 1);结果最终写入map任务所在节点的本地磁盘中(内里还有细节,讲到shuffle时,再细细展开)
    • block的第一行的数据被处理完后,接着处理第二行;逻辑同上
    • 当map任务将当前block中所有的数据全部处理完后,此map任务即运行结束
    • 其它的每一个map任务都是如上逻辑,不再赘述
  • Reduce阶段
    • reduce任务(reduce task)的个数由自己写的程序编程指定,如job.setNumReduceTasks(4)指定reduce任务是4个(reduce1、reduce2、reduce3、reduce4)
    • 每一个reduce任务的逻辑一下,所以以第一个reduce任务(reduce1)为例分析
    • map1任务完成后,reduce1通过网络,连接到map1,将map1输出结果中属于reduce1的分区的数据,通过网络获取到reduce1端(拷贝阶段)
    • 同样也如此连接到map2、map3获取结果
    • 最终reduce1端获得4个(Dear, 1)键值对;由于key键相同,它们分到同一组;
    • 4个(Dear, 1)键值对,转换成[Dear, Iterable(1, 1, 1, )],作为参数传入reduce()
    • 在reduce()内部,计算Dear的总数为4,并将(Dear, 4)作为键值对输出
    • 每个reduce任务最终输出文件(内里还有细节,讲到shuffle时,再细细展开),文件写入到HDFS
2.2 MR中key的作用
  • MapReduce编程中,key有特殊的作用

    • 数据中,若要针对某个值进行分组、聚合时,需将此值作为MR中的reduce的输入的key

    • 如当前的词频统计例子,按单词进行分组,每组中对出现次数做聚合(汇总计算总和);所以需要将每个单词作为reduce输入的key,MapReduce框架自动按照单词分组,进而求出每组即每个单词的总次数

    • 另外,key还具有可排序的特性,因为MR中的key类需要实现WritableComparable接口;而此接口又继承Comparable接口(可查看源码)

    • MR编程时,要充分利用以上两点;根据实际业务需求,设置合适的key

2.3 创建MAVEN工程

所有编程操作,在hadoop集群某节点的IDEA中完成

  • 使用IDEA创建maven工程
  • pom文件参考提供的pom.xml,主要用到的dependencies有
    <properties>
        <cdh.version>2.6.0-cdh5.14.2</cdh.version>
    </properties>

    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>

    <dependencies>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.0-mr1-cdh5.14.2</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${cdh.version}</version>
        </dependency>
        <dependency
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值