分布式编程MapReduce

前段被迫创业

已于 2022-11-05 06:25:28 修改

阅读量892

点赞数

分类专栏：笔记大数据学习文章标签： mapreduce 分布式大数据

于 2022-10-19 21:26:03 首次发布

本文链接：https://blog.csdn.net/weixin_63009369/article/details/127406612

版权

笔记同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

大数据学习

7 篇文章 0 订阅

订阅专栏

MapReduce的策略：

1.采用分而治之

2.把非常庞大的数据集，切分成非常多的独立的小分片

3.然后为每一个小分片单独地启动一个map任务

4.最终通过多个map任务，并行地在多个机器上去处理

MapReduce的理念:

·计算向数据靠拢而不是数据向计算靠拢

·要完成一次数据分析时，选择一个计算节点，把运算数据分析的程序放到计算节点上运行

·然后把它所涉及的数据，全部从各个不同的节点上面拉过来，传输到计算发生的地方

MapReduce slave架构：

MapReduce模型的核心函数：

Map函数：该函数的输入来自分布式文件系统的文件块,这些文件块的格式是任意的，可以是文档格式，也可以是二进制格式，将输入的元素转换为<key,value>的形式

函数

输入

输出

说明

Map

<k1,v1>

如:

<行号，“abc”>

List(<k2,v2>)

如:<“a”，1>

<“b”，2> <“c”，3>

1.将小数据集进一步解析成一批<key,value>对，输入Map函数中进行处理

2.每一个输入的<k1,v1>会输出一批<k2,v2>。其中<k2,v2>是计算的中间结果

Reduce

<k2,List(v2)>

如:

<"a",<1,1,1>>

<k3,v3>

<"a",3>

输入的中间结果<k2,List(v2)>中的List(v2)表示是一批属于同一个k2的value

Reduce函数：该函数的任务就是将一个输入的一系列具有相同键值对的键值对以某种方式组合起来，输出处理后的键值对，输出结果会合并成一个文件。

输入

输出

<key,value-list>

一个键以及一堆值的列表

value-list是值的列表，比如前面key是a后面的一堆值列表<1,1,1>就是

一堆的值，很多的值构成一个列表list

对value-list进行一个reduce的结果对这些值进行一个汇总求和

求和以后就生成一个<key,value-list>

MapReduce的体系结构

Client(客户端)：通过client可以提交用户编写的应用程序，用户通过它将应用程序交到JobTracker端，也可以查看当前提交作业的运行状态

JobTracker(作业跟踪器):1.负责资源的监控和作业的调度 2.监控底层的其他TaskTracker以及当前运行的Job的健康状况 3.一旦检查到失败的情况就把这个任务转移到其他节点继续执行跟踪任务执行进度和资源的使用量

TaskTracker(任务调度器):1.执行具体的相关任务，一般接收JobTracker发送过来的命令 2.把一些自己的资源使用情况，以及任务的运行进度通过心跳的方式发送给JobTracker。它通过slot的概念检查自己的资源使用状况，任务调度器将内存和CPU资源打包，然后等分成若干个slot

Tack(任务) :分为map任务和reduce任务，map任务调用map函数，reduce任务调用reduce函数

MapReduce工作流程

流程概述：一个大的MapReduce作业，首先会被拆分为若干个Map任务，但Map任务结束会生成许多个<key,value>的中间结果，这些中间结果会被发送到Reduce中处理，具有相key的<key,value>会被发送到同一个Reduce任务，Reduce任务会对中间结果进行汇总计算，然后输出到分布式文件系统。

MapReduce的各个执行阶段