本系列,是斯坦福大学《mining massive dataset》的笔记。
MapReduce
Distributed File System
传统的单机结构与分布式结构
分布式计算的难题
- node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
- network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
- distributed programming很困难。
MR的解决
- 将数据冗余地存放在多个计算机节点上
- 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
- 简单的编程模型