MIT 6.824 lab distributed system 分布式系统(1)----lab1 MapReduce

文章探讨了为何需要分布式系统,主要关注其在实现高并发、硬件资源并行利用以及容错性方面的优势。MapReduce作为一种实现方式被详细阐述,用于统计单词出现次数和构建倒排索引。该框架中,Master节点负责任务分配,SplitWorker进行数据切分,而ReduceWorker执行聚合操作并将结果写入最终文件。
摘要由CSDN通过智能技术生成

https://youtu.be/cQP8WApzIQQ

概念

  • 为什么需要分布式系统?
    • high performance
    • parallelism:分布式系统可以实现CPU、内存、硬盘的并行运行
    • fault tolerance
    • physical:
    • security / isolated
  • 分布式系统的困难
    • concurrency:各个并行的部分之间的complex interactions以及各种时间依赖的事务
    • partial failures
    • high-performance

Implement

implementation

RPC(remote procedure call)、threads、concurrency control、etc.

performance
  • scalability:

lab1----MapReduce

MapReduce的工作原理

统计单词出现次数

在这里插入图片描述

建立倒排索引

在这里插入图片描述

MapReduce的架构
  • master做为用户的代理做一些特殊的工作:如给split worker分配数据,让reduce worker去拿切分好的数据等。解放用户
  • 每个split worker在本地将数据切分开放在本地的缓存或硬盘上
  • reduce worker拿到split的结果之后,在本地做完reduce,将结果写到最终的文件final file

请添加图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值