Mapreduce核心思想与工作过程
本文有配套视频可以在B站观看 《Mapreduce核心思想与工作过程》https://www.bilibili.com/video/BV1MA41137ed?from=search&seid=16934790601390688979
Mapreduce核心思想与核心函数
Mapreduce核心思想
MapReduce是一种并行编程模型,是Hadoop生态系统的核心组件之一,**“分而治之”**是MapReduce的核心思想,它表示把一个大规模的数据集切分成很多小的单独的数据集,然后放在多个机器上同时处理。
我们用一个通俗易懂的例子来体现“分而治之”的思想。
如果一个人要做一个三明治,需要切面包、煎培根、切西红柿、洗生菜,然后组合,假设每个步骤都需要2分钟的话,我们做好一个三明治至少需要8分钟。(传统做法中没有“分而治之”的思想)
但是,如果我们把制作三明治的工作分成四个部分同时进行,每部分都有单独的人来处理,那么切面包、煎培根、切西红柿、洗生菜四项工作同时开始同时结束,总共只需要2分钟,再加上组合1分钟,那么采用分工合作的方式完成三明治只需要3分钟。这就是我们MapReduce的“分而治之”的思想了。