MapReduce介绍

什么是MapReduce

分布式编程框架,用户直接操作业务逻辑,无需感知底层分布式实现

优点

  1. 易于编程
  2. 良好的扩展性,动态增加服务器
  3. 高容错
  4. 适合海量数据计算

缺点

  1. 不擅长实时计算
  2. 不擅长流式计算
  3. 不擅长DAG有项无环图

工作原理

在这里插入图片描述

InoutFormat

  1. maptask并行度
    一个job的Map阶段并行度由切片数决定
    一个切片分配一个task实例
    默认情况下,切片大小=BlockSize(文件块大小)
    切片时针对每一个文件单独切片
  2. job执行过程
    新旧api兼容 -> 确认连接 -> 确认stag路径 -> 创建jobid -> 切片并输出切片文件 -> job的xml信息 -> jar包-> 标记job状态为running -> 删除配置信息
    在这里插入图片描述
  3. 切片
    根据配置信息获取切片的最大值和最小值没有默认为1和无限大
    获取块大小 设置切片大小
    如果文件大小是切片大小的1.1倍才会去切片
    fileInputformat原理:
    在这里插入图片描述

MapReduce工作流程

在这里插入图片描述
在这里插入图片描述
MapTask工作机制
read
map
collect
溢写阶段
merge阶段
reduceTask工作机制
copy阶段
sort阶段
reduce阶段

Shullfe流程

map之后 reduce之前
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值