大数据论文_02_MapReduce(个人总结)

    声明: 1. 本文为我的个人复习总结, 并那种从零基础开始普及知识 内容详细全面, 言辞官方的文章
              2. 由于是个人总结, 所以用最精简的话语来写文章
              3. 若有错误不当之处, 请指出

MapReduce

目的:

让开发人员意识不到分布式的存在

架构:

Master (JobTracker)

Worker (TaskTracker: MapTask, ReduceTask)

三个问题:

  1. 简单易用:

    • 只有 Map 和 Reduce, 增加机器数量即可提高计算性能

    • 有Counter记录日志便于debug

      利用这个计数器,去统计有多少输入日志的格式和预期的不一样。如果比例太高,那么多半程序就有 Bug

  2. 容错:

    对错误数据视而不见, 直接重试处理即可, 认为UV 10000 和 9999 没区别

    • 对于 Worker 节点的失效

      MapReduce 框架解决问题的方式非常简单, 就是换一台服务器重新执行任务

    • 对于 Master 节点的失效

      Master 节点失败了也就是整个 MapReduce 任务失败了, 那么只需要重新提交任务进行重试

  3. 性能:

    • Combiner

    • 计算程序向数据移动, 而不是数据向计算程序移动

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值