MapReduce简介

1.MapReduce是一个分布式运算程序的编程框架,是用户开发Hadoop数据分析应用的核心框架(分析数据)
2.MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,运行在一个hadoop集群之上。
3.优点:

1.MapReduce易于编程,他简单的实现一些接口,就可以完成一个分布式程序。可以分布到大量的廉价的PC机器上。
2.良好的扩展性:当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力
3.高容错性:比如一台机器挂了,他可以把上面的计算任务转移到另外一个节点上运行,他可以自动完成。
4.适合PB级以上海量数据的离线处理:实现上千台服务器集群开发工作,提供数据处理能力

4.缺点:

1.不擅长实时计算:无法像MySql很快的返回结果
2.不擅长流式计算:流式计算的输入数据是动态的,而MapReduce是静态的
3.不擅长有向图的计算

5.MapReduce核心编程思想:
在这里插入图片描述
6.MapReduce进程:
一个完整的程序有三类实例进程
MrAppMaster:负责整个程序的过程调度及状态协调
MapTask:负责Map阶段的整个数据处理流程
ReduceTask:负责Reduce阶段的整个数据处理流程

7.MapReduce编程规范
Mapper阶段:

1.用户自定义的Mapper要继承自己的父类
2.Mapper的输入数据时KV对的形式(类型可以自定义)
3.Mapper中的业务逻辑写在map()方法中
4.Mapper的输出数据是KV对的形式
5.map()方法(MapTask进程)对每一个<K,V>调用一次

Reduce阶段:

1.用户自定义的Reduce要继承自己的父类
2.Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
3.Redecer的业务逻辑写在redue()方法中
4.ReduceTask进程对每一组相同k的<k,v>组调用一次reduce()方法

Driver阶段

相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的事封装了MapReduce程序相关运行参数的job参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值