MapReduce分布式计算框架

VIP文章翊小宸

已于 2022-05-23 11:24:02 修改

阅读量647

点赞数

分类专栏：大数据文章标签： hadoop big data

于 2021-09-15 19:58:59 首次发布

本文链接：https://blog.csdn.net/weixin_45058912/article/details/120228690

版权

1.描述一下手写MR的大概流程和规范

Mapper阶段:
我们要知道每个map任务,都会继承Mapper类, 我们先自定义WordCountMapper, 让其继承Mapper类。其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable>。接着我们需要重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)。然后我们按默认设置将数据一行一行读取出来,获取每一行数据并且按照分隔符(空格)将其切分。随即我们将数据以<key,value>的形式循环遍历输出。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
Reducer阶段
首先我们自定义WordCountReducer并让其继承Reducer类(其中Reducer有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountReducer<Text, IntWritable, Text, IntWritable>(由run()方法启动Reducer的任务))。然后我们需要重写reduce()方法, 设置一个初始化变量, 接着遍历当前相同key的一组values进行汇总,并累加求和。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
ps: reduce方法输出后是没有排序的
Job阶段
(1)驱动类,当前MR程序入口,核心操作是提交job
(2)获取配置信息以及获取Job对象(实例化任务)
(3)关联本程序的jar,设定运行jar类型
(4)关联Mapper的输入和输出类型
(5)关联Reducer的输入输出类型
(6)关联Mapper和Reducer的jar
(7)设置输入输出路径
(8)提交job

2. 如何实现Hadoop中的序列化, 以及Hadoop的序列化和Java的序列化有什么区别?

通过自定义bean对象实现序列化接口（Writable）
（1）必须实现Writable接口
（2）反序列化时，需要反射调用空参构造函数，所以必须有空参构造
（3）重写序列化方法

@Override
public void write(DataOutput out

最低0.47元/天解锁文章

翊小宸

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
MapReduce分布式计算框架

1.描述一下手写MR的大概流程和规范Mapper阶段:(1)每个map任务,都会继承Mapper类,用户自定义WordCountMapper继承了Mapper类(2)其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable>(3)重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)
复制链接

扫一扫