- 单节点无法处理海量数据
- 多个节点并行处理数据 并行(同时处理不同的数据)
- 任务划分(在HDFS的一个物理数据块为一个任务切片) 提高了本地处理数据的转换率
- 任务就是jar包 移动分配 (移动运算)
- map端处理数据(局部结果) 结果汇总
- reduce端 对map端的结果进行聚合 分区器 分组器
- 聚合的任务 聚合的逻辑
- maptask reducetask job
分区器 分组器
分区器:有不同的数据 将不同的数据通过hashcode取模划分不同的任务
分组器:通过key 分组 将相同的数据分到一起 将同一个key分成一组
M-R程序设计核心思想
最新推荐文章于 2024-06-19 12:06:19 发布