(一)MapReduce核心思想
- MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果,这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。
- MapReduce作为一种分布式计算模型,它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段。
阶段 | 功能 |
---|---|
Map阶段 | 负责将任务分解,即把复杂的任务分解成若干个“简单的任务”来并行处理,但前提是这些任务没有必然的依赖关系,可以单独执行任务。 |
Reduce阶段 | 负责将任务合并,即把Map阶段的结果进行全局汇总。 |
- MapReduce就是“任务的分解与结果的汇总”。即使用户不懂分布式计算框架的内部运行机制,但是只要能用Map和Reduce思想描述清楚要处理的问题,就能轻松地在Hadoop集群上实现分布式计算功能。
- MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。
二、新课讲解
(一)MapReduce核心思想
- MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题,按照一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,把各部分的结果组成整个问题的结果,这种思想来源于日常生活与工作时的经验,同样也完全适合技术领域。
- MapReduce作为一种分布式计算模型,它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时,每个MapReduce程序被初始化为一个工作任务,每个工作任务可以分为Map和Reduce两个阶段。
阶段 | 功能 |
---|---|
Map阶段 | 负责将任务分解,即把复杂的任务分解成若干个“简单的任务”来并行处理,但前提是这些任务没有必然的依赖关系,可以单独执行任务。 |
Reduce阶段 | 负责将任务合并,即把Map阶段的结果进行全局汇总。 |
- MapReduce就是“任务的分解与结果的汇总”。即使用户不懂分布式计算框架的内部运行机制,但是只要能用Map和Reduce思想描述清楚要处理的问题,就能轻松地在Hadoop集群上实现分布式计算功能。
- MapReduce设计的一个理念就是“计算向数据靠拢”,而不是“数据向计算靠拢”,因为,移动数据需要大量的网络传输开销。
(二)MapReduce编程模型
- MapReduce是一种编程模型,用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候,每个任务的执行过程都会被分为两个阶段,分别是Map和Reduce,其中Map阶段用于对原始数据进行处理,Reduce阶段用于对Map阶段的结果进行汇总,得到最终结果。
- Map和Reduce函数
- 问题1:100副牌,没有大小王,差一张牌,请确定缺少哪张牌?
- 问题2:100GB网站访问日志文件,找出访问次数最多的IP地址
(三)MapReduce编程实例——词频统计思路
1、Map阶段(映射阶段)
- 输入键值对⟹ \Longrightarrow⟹输出键值对
2、Reduce阶段(归并阶段)
(四)MapReduce编程实例——词频统计实现
- 启动hadoop服务
1、准备数据文件
- 创建
wordcount
目录,在里面创建words.txt
文件
(2)上传文件到HDFS指定目录
-
创建
/wordcount/input
目录,执行命令:hdfs dfs -mkdir -p /wordcount/input
-
将文本文件
words.txt
,上传到HDFS的/wordcount/input
目录 -
在Hadoop WebUI界面上查看上传的文件
2、创建Maven项目
- 创建Maven项目 -
MRWordCount
3、添加相关依赖
- 在
pom.xml
文件里添加hadoop
和junit
依赖
4、创建日志属性文件
- 在
resources
目录里创建log4j.properties
文件
log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
5、创建词频统计映射器类
-
创建
ne