分布式并行计算框架MapReduce
是指实现某项任务或某项工作从开始到结束的计算过程或流的结构。
游戏中,目标是计算每组纸条中每个图形的总个数。一共八个步骤,每个步骤都是计算的一部分,是框架的一部分。
MapReduce计算框架
分布式并行计算框架
一个大的任务被拆分成多个小任务,每个小任务同时执行。按照执行流程进行计算。
大数据为什快
横向扩展
移动程序到数据端
多个数据副本
分布式存储(减小磁盘IO的瓶颈)
分布式计算(众人拾柴火焰高-人多力量大)
WordCount 单词总和
需求:
计算aaa.txt文档中每个单词出现的次数
例如:
zhangsan,lisi,wangwu
zhaoliu,qianqi,niuba
zhangsan,wangwu
zhaoliu,niuba
目标结果:
zhangsan 2
lisi 1
wangwu 2
zhaoliu 2
qianqi 1
niuba 2