MapReduce的工作原理:
map端就是计算向数据移动
map是并行的,map端结束才允许reduce,因为map的输出才是reduce的 输入,
做性别的统计:拉取男性的数据和女性的数据
MapReduce不需要太大的内存
相同的key为一组,这一组数据调用一次reduce方法
客户端首先是获得map的split清单。
切片信息
配置文件
jar包
jobtracker:
调度
对集群的资源管理
客户端的切片清单为规划
最终获得决策清单
MapReduce的工作原理:
map端就是计算向数据移动
map是并行的,map端结束才允许reduce,因为map的输出才是reduce的 输入,
做性别的统计:拉取男性的数据和女性的数据
MapReduce不需要太大的内存
相同的key为一组,这一组数据调用一次reduce方法
客户端首先是获得map的split清单。
切片信息
配置文件
jar包
jobtracker:
调度
对集群的资源管理
客户端的切片清单为规划
最终获得决策清单