MapReduce

最新推荐文章于 2024-05-11 23:29:58 发布

入门编程小菜鸟

最新推荐文章于 2024-05-11 23:29:58 发布

阅读量234

点赞数

文章标签： mapreduce

本文链接：https://blog.csdn.net/weixin_46579297/article/details/124385194

版权

是什么：

一种编程模型，基于集群的高性能并行计算平台，可以使用普通服务器构成一个包数十数百甚至数千个节点的分布式和并行计算集群

2：基本特点：

分布可靠，对数据集的操作分发给集群中的多个节点实现可靠性，每个节点周期性返回他完成的任务和最新的状态

封装了实现细节，基于框架API变成，面向业务展开分布式编码

提供了跨语言编程的能力

3：主要功能

3.1 数据划分和计算任务调度：

系统自动将一个作业(Job)待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务(Task)，并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点)，同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。

3.2 数据、代码互相定位

为了减少数据通信，一个基本的原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移)，但尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。

3.3 系统优化

为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据处理不平衡，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。

3.4 出错检测和恢复

以低端的商用服务器构成的大规模MapReduce计算集群中，节点硬件(主机、磁盘、内存等)出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。

4：MapReduce的运行流程

4.1运行流程

步骤：

1.首先正式提交作业代码，并对输入数据源进行切片

2.master 调度worker 执行map 任务

3.worker党总的map 任务读取输入原切片

4.worker执行map任务，将任务输出保存在本地

5.master调度worker执行reduce任务，reduce worker 读取map 任务的输出文件

4.2 任务详解

MapReduce将作业的整个运行过程分为两个阶段：Map阶段Reduce阶段。

Map阶段由一定数量的Map Task组成，流程如下：

输入数据格式解析：InputFormat
输入数据处理：Mapper
数据分区：Partitioner
数据按照key排序
本地规约：Combiner（相当于local reducer，可选）
将任务输出保存在本地

Reduce阶段由一定数量的Reduce Task组成，流程如下：

数据远程拷贝
数据按照key排序和文件合并merge
数据处理：Reducer
数据输出格式：OutputFormat

通常我们把从Mapper阶段输出数据到Reduce阶段的reduce计算之间的过程称之为shuffle。

5MapReduce JavaAPI 应用

5.1 开发流程

搭建开发环境

机务MapReduce框架编写代码，Map、reduce/driver三部分组成

编译打包

上传到运行环境

运行linux jar 命令

例子：WordCount

Map类编写

public class WordCountMapper extends Mapper<Object,Text,Text,IntWritable> {


    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        //map 数据处理，将输入的KV转成输出的KV
        //词频统计，出的kv分别的word 和one
        //输入的vlaue是一行数据，多个单词用空格分隔
        //1将单词分割出来
        StringTokenizer str = new StringTokenizer(value.toString());
        while(str.hasMoreTokens()){

            //2获取下一个单词
            String wordStr = str.nextToken();
            //输出kv形式，k代表这个单词 v代表次数，
            Text word = new Text(wordStr);
            IntWritable one = new IntWritable(1);
            //将数据输出
            context.write(word,one);
        }
    }
}

reduce类编写

public class WordCountReduce extends Reducer<Text,IntWritable,Text,IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //key 整合过来的key
        //values 是这key的 所有的值
        //要求频率 计数
        int sum = 0;
        for(IntWritable val : values){
            sum += val.get();
        }

        context.write(key,new IntWritable(sum));
    }
}

Driver编写

public class WordCountDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //drover 是驱动 ，将整个流程打通
        Configuration conf = new Configuration();
        //创建任务
        Job job = Job.getInstance(conf,"job021-hanyujun-wordcount");
        //运行的朱磊 mapper。reduce ，combine，
        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReduce.class);
        job.setCombinerClass(WordCountReduce.class);

        //配置输出的kv形式
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //制定输入和输出的路径
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }
}

Maven 打包使用maven 打包上传到运行环境查看执行结果

入门编程小菜鸟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce

是什么：一种编程模型，基于集群的高性能并行计算平台，可以使用普通服务器构成一个包数十数百甚至数千个节点的分布式和并行计算集群2：基本特点：分布可靠，对数据集的操作分发给集群中的多个节点实现可靠性，每个节点周期性返回他完成的任务和最新的状态封装了实现细节，基于框架API变成，面向业务展开分布式编码提供了跨语言编程的能力3：主要功能3.1 数据划分和计算任务调度：系统自动将一个作业(Job)待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务(Tas...
复制链接

扫一扫