MapReduce处理数据的流程

最新推荐文章于 2023-12-07 22:58:15 发布

隔壁程序员老王

最新推荐文章于 2023-12-07 22:58:15 发布

阅读量2.3k

点赞数 3

分类专栏： Hadoop

本文链接：https://blog.csdn.net/weixin_47681855/article/details/108887191

版权

MR数据处理的流程

MR是一种对海量数据进行运算的框架,模型,是一种面向面向大规模数据处理的一种方法,

是用来对超大的数据进行运算和分析的.

它一般由mapper端和reducer端两部分内容组成.

首先任何工具方法都是源于客户的需求;当我们对客户需求进行分析以后再利用这些存储工具或运算工具去达成客户的需求.基于这一点去思考MR的流程

mapper端主要的任务是对元数据进行处理,由于数据量特别大用一台机读取效率太低,用多台机器读同样的任务效率也不会提升;

所以我们对一个大的文件进行分割然后将他的每个块分给不同的机器去处理(切块的大小和每台机器处理的任务(mappertask)大小应该是相同的----->可以提高每台机的的处理效率(转换率);

mapper端的map方法是对数据进行处理的直接位置,它的运行方式为每行数据运行一次;

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HDQn7VUq-1601453929607)(C:\Users\jiayue\AppData\Roaming\Typora\typora-user-images\1597742074485.png)]$

map方法处理数据时需要对处理的数据进行分析确定它的 INK值 INV值而输出的K V 是由重写的map方法处理后再进行组装的 OUTK值 OUTV值输入到Buffer中

四个参数分别对应的类型和含义
* 参数一:输入位置的偏移量  Long--->LongWritable
* 参数二:每行数据的类型   String --->Text
* 参数三:输出map集合的key值   String  --->Text
* 参数四:输出map集合的value值

关注

专栏目录