MapReduce分布式计算框架

1.描述一下手写MR的大概流程和规范

Mapper阶段:
我们要知道每个map任务,都会继承Mapper类, 我们先自定义WordCountMapper, 让其继承Mapper类。其中Mapper有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountMapper<LongWritable, Text, Text, IntWritable>。接着我们需要重写map方法(如果实验文件有n行,故文件所在的Mapper类都单独调用了n次map方法)。然后我们按默认设置将数据一行一行读取出来,获取每一行数据并且按照分隔符(空格)将其切分。随即我们将数据以<key,value>的形式循环遍历输出。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
Reducer阶段
首先我们自定义WordCountReducer并让其继承Reducer类(其中Reducer有四个参数类型<KEYIN, VALUEIN, KEYOUT, VALUEOUT>,对应的为WordCountReducer<Text, IntWritable, Text, IntWritable>(由run()方法启动Reducer的任务))。然后我们需要重写reduce()方法, 设置一个初始化变量, 接着遍历当前相同key的一组values进行汇总,并累加求和。最后经过context.write方法按Mapper类中定义的输出格式<Text,IntWritable>写入上下文中。
ps: reduce方法输出后是没有排序的
Job阶段
(1)驱动类,当前MR程序入口,核心操作是提交job
(2)获取配置信息以及获取Job对象(实例化任务)
(3)关联本程序的jar,设定运行jar类型
(4)关联Mapper的输入和输出类型
(5)关联Reducer的输入输出类型
(6)关联Mapper和Reducer的jar
(7)设置输入输出路径
(8)提交job

2. 如何实现Hadoop中的序列化, 以及Hadoop的序列化和Java的序列化有什么区别?

通过自定义bean对象实现序列化接口(Writable)
(1)必须实现Writable接口
(2)反序列化时,需要反射调用空参构造函数,所以必须有空参构造
(3)重写序列化方法

@Override
public void write(DataOutput out
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值