菜鸟学习笔记--《Hadoop权威指南（第三版）》笔记

最新推荐文章于 2024-06-24 18:59:20 发布

yyq1213

最新推荐文章于 2024-06-24 18:59:20 发布

阅读量819

点赞数

分类专栏： hadoop 文章标签： mapreduce hadoop 大数据程序员编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyq1213/article/details/78298125

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

此系列是本人浅读《Hadoop权威指南（第三版）》的一些用更通俗，好理解的形式做的总结，具体参考原版。

MapReduce是Hadoop的核心和基础，他是一个处理数据的编程模型，虽说有了hive之后因为非常简单易上手，很多不是程序员的人也可以很好的利用Hadoop去做大数据分析处理来代替写MapReduce程序，但是本人认为对于掌握Hadoop、大数据处理生态，它还是有学习的必要性的。

理论介绍
MapReduce分为两个阶段，即map和reduce两个阶段。每个阶段的输入和输出都是以键值对的方式。

①Map阶段：输入键值对a 输出键值对b
shuffle阶段：书上说是经由MapReduce框架处理后，我的理解是对所有map阶段产生的键值对b加工汇合整理，得到键值对c)
②Reduce阶段：输入键值对c，输出键值对d（结果）

具体例子演示
※※背景：查找每一年份最高气温
※※数据（键值对a）：
摘自书
      说明：
                  每一个键值对就是一个采集样本数据
                  key   ，可以把它理解为就是采集样本的序号吧，这个不重要
                value，就是样本那一年采集某一段时间的气候数据组成，例如湿度、温度等气候要素转化为数据拼接表示，其中加粗的是年份和温度，所以其他数据并不重要；
                 所以map阶段输入的数据，其实只有加粗的年份和温度两个数据是有用的。

※※Map阶段：过滤数据，整理有用的数据
输入：键值对a（即上述数据）
输出：
键值对b

※※shuffle阶段：（MapReduce框架处理，将键值对整理汇合排序和分组）
输入：键值对b（即上Map输出）
输出：
键值对c

※※Reduce阶段：（遍历整个列表找出最大的读熟）
输入：键值对c（即上shuffle输出）
输出：
键值对d
这就是最终结果，

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。