大数据005-hadoop003-了解MR及Java的简单实现

上班学习，下班摸鱼

已于 2024-04-28 14:26:16 修改

阅读量318

点赞数 5

分类专栏： Hadoop 大数据学习之路文章标签：大数据

于 2024-04-25 11:45:43 首次发布

本文链接：https://blog.csdn.net/yl10164927/article/details/138184536

版权

大数据学习之路同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

Hadoop

3 篇文章 0 订阅

订阅专栏

本文阐述了MapReduce的结构，包括map和reduce阶段，以Hadoop项目中的气象数据为例，展示了如何用Java编写map和reduce函数，以及如何配置并运行MR任务以求解问题。

摘要由CSDN通过智能技术生成

了解MapReduce

MapReduce过程分为两个阶段：map阶段、reduce阶段。每个阶段搜键-值对作为输入和输出。
要执行一个MR任务，需要完成map、reduce函数的代码开发。

Hellow World

【Hadoop权威指南】中的以分析气象数据为例，找到每年的最高气温。
数据样例如下：
在这里插入图片描述

map阶段

map函数只是一个数据准备阶段。
在本例中，它的功能只需要取出年份、气温两个属性即可。
map函数的输出应该长这样：
在这里插入图片描述

reduce阶段

reduce函数收到的输入数据不是map函数的直接结果，中间经过MR框架的处理（基于键对键-值进行排序和分组处理），看到输入如下：
在这里插入图片描述
键是年份，值是该年的所有气温值。
reduce函数，需要对map函数的输出结果（MR框架处理后）进行处理。
在本例中，它的功能是找到每年的最高气温。

Java实现MapReduce函数

使用java实现上述例子的map、reduce方法

Map方法

在这里插入图片描述

实现Mapper（org.apache.hadoop.mapreduce.Mapper），重写map方法，定义输入、输出类型
将每行文本截取，取出年份、气温属性
a. 主要是理解它的操作步骤，不用纠结中间的判断细节
将结果写入到输出中，使用context.write

Reduce函数

在这里插入图片描述

继承Reduce（org.apache.hadoop.mapreduce.Reducer）函数，定义输入、输出类型
取出当前集合中的最大值，Math.max
将结果写入到输出中，使用context.write

调用自定义的MapReduce函数，运行MR任务

在这里插入图片描述

将代码打包成jar文件
FileInputFormat的addInputPath为原始数据的输入路径
FileInputFormat的setOutputPath为结果数据的输出路径
setMapperClass、setReducerClass为指定要用的map类和reduce类
setOutputKeyClass、setOutputValueClass为reduce函数的输出类型

运行测试

在这里插入图片描述
执行后查看输出目录：

上班学习，下班摸鱼

关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
4
评论
大数据005-hadoop003-了解MR及Java的简单实现

将代码打包成jar文件FileInputFormat的为原始数据的输入路径FileInputFormat的为结果数据的输出路径setMapperClass、setReducerClass为指定要用的map类和reduce类setOutputKeyClass、setOutputValueClass为reduce函数的输出类型。
复制链接

扫一扫

专栏目录