MapReduce流程简要概括

本文简要概括MapReduce流程,包括分布式计算的重要性、MapReduce的基本概念及步骤。MapReduce将数据切分、映射转换、中间数据处理、归并聚合,适用于大规模数据处理。文中讨论了数据切分、MAP任务切分、中间数据转换的关键点,以及解决数据倾斜的方法。
摘要由CSDN通过智能技术生成

MapReduce流程简要概括

1.分布式计算

分布式计算

  1. 很重要的思想就是,一个问题拆分为多个步骤和多份数据,然后很多台计算机一起处理,最后对这些数据处理结果汇总聚合就是最终结果。
  2. 我们的程序就是数据加逻辑/算法(代码),而要让多台电脑能够一起参与到问题解决中来,首先需要把数据和代码进行分割,这样让每台计算机都能参与计算与处理。
  3. 在这个过程中,如何保证各个计算机分到的数据和任务都是相对均衡跟适合的就很考验程序机制了。例如集群中有高配电脑和低配电脑,如何协调,让高配电脑和低配电脑都能分配到适合自己硬件配置的处理任
    务。例如怎样给电脑的资源状态打分,这样可以判断出这台电脑是处于空闲还是高负载状态?例如怎样协调节点跟节点之间的通信,如何对处理任务和结果做汇总,如何对集群资源做汇总?
  4. 分布式计算中几个概念:
  • 资源池
  • 任务队列
  • rpc调用
  • 负载均衡
  • 心跳机制
  • 数据分块
  • 任务切片

2.MapReduce是什么?

  1. mapreduce是一种分布式处理数据的思想
  2. 分布式计算有很多种实现思路,mapreduce就是其中一种。
  3. 分布式计算通用部分,数据预处理。包括但不限于数据清洗、数据切块划分等操作。
  4. mapreduce,主要分为map阶段、reduce阶段。
  5. map阶段可以简单看做是数据转换阶段,就是把原始数据转
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值