MapReduce思想理解

最新推荐文章于 2022-11-14 21:57:55 发布

大王我亲自来巡山

最新推荐文章于 2022-11-14 21:57:55 发布

阅读量509

点赞数

分类专栏： MapReduce 文章标签： mapreduce hadoop 大数据

本文链接：https://blog.csdn.net/weixin_43923436/article/details/125357066

版权

MapReduce 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Map和Reduce

MapReduce是一种框架，更是一种思维方式，主要是用在大数据处理方面，当数据量过大的时候，通常需要分布式处理问题，如何分布式？其实就是map reduce解决的问题。分为map和reduce两个部分。
map：其实就是映射和拆分。这个拆分过程，主要有三个方面的拆分：1.数据规模的拆分，这个好理解，大数据嘛，就是数据太多，拆分一下。2.任务的分配，也就是分配到哪个机器最合适。3.这些拆分是可以并行计算的。第三点其实才是重中之重。当然，第三点其实也是理解map reduce最难的地方，怎么保证拆分后能并行计算？
reduce：reduce其实就是计算和汇总结果，这个过程，往往也是需要在多个分布式机器上进行。所以又回到了上面的问题，为什么这个reduce的汇总过程，可以保证并行呢？
所以，总而言之，mapreduce最神奇的地方就是，为什么使用这个框架和思想，就可以将一个现实的问题，转化成可以用分布式来解决的问题？

函数式编程思想

其实啊，说白了，map reduce其实本质上就是一个函数式编程思想的框架，所以说，当遇到一个现实中的实际问题，我们套用map reduce去实现分布式处理的过程，其实就是在无形中使用了函数式编程的思维来看待了这个问题。那问题就来到了，为什么函数式编程思维，就更适用于分布式解决问题呢？
这个问题，可以具体看我的另一篇博客，专门详细介绍了函数式编程思维：函数式编程思维和命令式编程思维对比分析
这里简单解释一下函数式思维为什么适合分布式
首先，我们一般的编程思想，都是图灵机的思想，也就是控制的是解决问题的过程，我们写的代码，会告诉计算机，第一步做什么，第二步做什么。就拿map reduce中最经典的一个问题来举例子：统计词频
不使用MapReduce
此时，如果不套用map reduce，我们一般会怎么写代码？
如果是我，我估计就是，设计一个map，key是单词，value是频率，然后直接遍历原始数据，根据key来依次累加value。
当然，这个思路肯定是没问题的。但是，如果数据量非常大呢？一个机器跑不完，必须好几台机器来跑，那么，刚才的思路，就有了一个最大的难题，划分的时候，必须按照之前遍历的顺序划分吗？因为遍历这件事，其实是在暗中规定了执行顺序的，你作为程序员，可能知道，这个统计词频的问题，没有前后顺序的。但是，计算机她不知道啊，当你代码中写了循环程序的时候，计算机就一定会按照先后顺序来计算。而一旦有了先后顺序，对于分布式来说，就是最大的问题，因为分布式最难处理的就是多台机器的同步问题。而传统的命令式编程，控制的是计算流程，而控制流程，必然会凭空产生同步异步问题，尽管问题本身可能并不需要同步。
使用MapReduce
函数式编程思想，关心的是数据的映射。总结起来就是，map过程和reduce过程。统计词频问题中，第一步，map过程，对原始数据进行拆分，映射成<key,1>。然后，第二步，reduce过程，汇总，汇总成key,n>，而真正的顺序，变成了两个函数的调用顺序，而每个函数本身执行的时候，没有顺序之分，因此，函数的执行就可以很轻松的被多个机器同时运算。

总结

MapReduce为什么适合大数据分布式计算？
因为MapReduce本身体现的就是函数式编程思维。
为什么函数式编程更适合分布式计算？
因为函数式编程关注的是数据映射，而不是解决问题的流程，减少了代码中不必要的流程控制，就巧妙避免了同步异步问题。

大王我亲自来巡山

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce思想理解

MapReduce是一种框架，更是一种思维方式，主要是用在大数据处理方面，当数据量过大的时候，通常需要分布式处理问题，如何分布式？其实就是map reduce解决的问题。分为map和reduce两个部分。
复制链接

扫一扫