【大数据】Map-Reduce的讲解

最新推荐文章于 2024-05-11 01:23:33 发布

am brother

最新推荐文章于 2024-05-11 01:23:33 发布

阅读量491

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/weixin_43939593/article/details/104877873

版权

29 篇文章 3 订阅

订阅专栏

Map-Reduce

Map-Reduce也逐渐成为大数据题目面试的热门，多了解一下也无妨。
总结自左神。

我们先来介绍一下哈希函数
哈希函数又叫做散列函数，哈希函数的输入域可以是非常大的范围，但是输出域是固定范围，假设为s.
哈希函数的性质：

比如 “aaa1”、“aaa2” 、"aaa3"虽然相似，但优秀的哈希函数计算出的哈希值差异巨大。

MD5和SHA1算法都是经典的哈希函数算法。
Map-Reduce和Hadoop逐渐成为面试热门，对Map-Reduce的了解与总结也显得很重要

Map-Reduce 分为两个阶段

通过哈希函数将任务分成若干的子任务，同样哈希值的任务可以分到一个节点上进行处理。在分布式的系统上，一个节点可能是一个机器，也可能是一个计算节点。

对Map阶段得到的结果，再结合用户的要求进行合并。按照结果和要求对子任务得到的总数据进行一定的处理、

Map-Reduce的难点在于工程上的处理。
在大型的分布式系统中，每台机器都是一个计算节点。

在大型的分布式系统上，每一个机器是一个计算节点，如果有机器损坏，上面的数据就会损坏，所以需要备份。 Map-Reduce产生的文件相当的庞大，可能一个文件就让一台机器的硬盘存不下，这么多文件如何分布式存储呢，这种存储是分布式的存储，所以就需要考虑备份，分布式存储的备份细节，以及容灾策略。
分布式系统上，会分配给不同的机器。不同的机器性能上也不一定相同。机器相同，分配的任务也不会那么的平均，必然会导致会有先后完成。所以要考虑任务策略与任务进度跟踪的细节设计，节点状态的呈现。
分布式系统上，任务都是并行处理的。要是有一个任务失败，还得想办法重新分配这个任务i，所以还有并行的跟踪每一个进程，看进程的完成情况。
多用户权限等问题

用map-reduce方法统计一篇文章每个单词出现的个数

map阶段：
文章 -> 预处理(去标点、去连字符) -> 得出只包含完整单词的文本->map阶段{对每个单词生成词频为1的记录，如（“book”,1)、（“bit”,1）} ->通过哈希函数将得到的每一个单词分成若干个子任务（单词相同的记录会被分到一起）

reduce阶段：
子任务：

Map-Reduce 适合用于对大数据的处理，适合用于数以百万级的网页上的单词统计。因为是并行处理，节省空间，减少时间消耗。

关注