MapReduce处理数据的流程

MR数据处理的流程

MR是一种对海量数据进行运算的框架,模型,是一种面向面向大规模数据处理的一种方法,

是用来对超大的数据进行运算和分析的.

它一般由mapper端和reducer端两部分内容组成.

首先任何工具方法都是源于客户的需求;当我们对客户需求进行分析以后再利用这些存储工具或运算工具去达成客户的需求.基于这一点去思考MR的流程

MR处理数据的简要思路:

mapper端主要的任务是对元数据进行处理,由于数据量特别大用一台机读取效率太低,用多台机器读同样的任务效率也不会提升;

所以我们对一个大的文件进行分割然后将他的每个块分给不同的机器去处理(切块的大小和每台机器处理的任务(mappertask)大小应该是相同的----->可以提高每台机的的处理效率(转换率);

mapper端的map方法是对数据进行处理的直接位置,它的运行方式为每行数据运行一次;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HDQn7VUq-1601453929607)(C:\Users\jiayue\AppData\Roaming\Typora\typora-user-images\1597742074485.png)]

map方法处理数据时需要对处理的数据进行分析确定它的 INK值 INV值 而输出的K V 是由重写的map方法处理后再进行组装的 OUTK值 OUTV值 输入到Buffer中

四个参数分别
  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值