MR数据处理的流程
MR是一种对海量数据进行运算的框架,模型,是一种面向面向大规模数据处理的一种方法,
是用来对超大的数据进行运算和分析的.
它一般由mapper端和reducer端两部分内容组成.
首先任何工具方法都是源于客户的需求;当我们对客户需求进行分析以后再利用这些存储工具或运算工具去达成客户的需求.基于这一点去思考MR的流程
MR处理数据的简要思路:
mapper端主要的任务是对元数据进行处理,由于数据量特别大用一台机读取效率太低,用多台机器读同样的任务效率也不会提升;
所以我们对一个大的文件进行分割然后将他的每个块分给不同的机器去处理(切块的大小和每台机器处理的任务(mappertask)大小应该是相同的----->可以提高每台机的的处理效率(转换率);
mapper端的map方法是对数据进行处理的直接位置,它的运行方式为每行数据运行一次;
map方法处理数据时需要对处理的数据进行分析确定它的 INK值 INV值 而输出的K V 是由重写的map方法处理后再进行组装的 OUTK值 OUTV值 输入到Buffer中
四个参数分别