hadoop学习笔记

最新推荐文章于 2024-07-25 19:26:54 发布

zzc3615

最新推荐文章于 2024-07-25 19:26:54 发布

阅读量427

点赞数

分类专栏： hadoop 文章标签： hadoop mapreduce 分布式应用分布式存储平台生活

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzc3615/article/details/6765833

版权

hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

这段时间简单的学习了一下hadoop平台，初步有了一个认识，但是时间看的不多，觉得认识还很浅显，主要看了下MapReduce和HDFS。在这里总结一下。

一、概要认识

hadoop是有个用于开发并行计算和分布式存储系统的平台。可以用普通的pc机来组成集群，用来部署分布式应用。主要包括两部分，MapReduce和HDFS。

二、MapReduce

我的理解是，MapReduce是用来并行计算的，进行大规模的数据处理，通过MapReduce这个模型来处理分布着在各个节点上的数据，来达到并行处理的目的。

现实生活的待处理问题可以通过这个模型来处理。MapReduce主要分为两个阶段，一是Map阶段，二是Reduce阶段。

设计时主要是map和reduce函数，其中

map函数，顾名思义，是一个数据的映射，就是将一组key/value对映射到另一组key/value对，进行一个初步的处理，从而得到一个中间数据。当然这个处理是根据实际情况，程序的需求来做出合适的映射。例如hadoop权威指南中的例子就是将输入的一行行温度信息，映射出“年份/温度”这样一个键值对。

而reduce函数，reduce其实是化简的意思，是将有map阶段的输出做化简，将具有相同键key的values合并，做更进一步处理，比如书上找出了相同key的values的最大值，其实也可求出平均数，根据实际需要去处理。

这里提到的key-value其实是概念上的，具体到实际，要看你的设计。MapReduce编程模型当然需要一个文件系统来支持，hadoop中HSFS充当了这个角色。

三、HDFS

HDFS是一个分布式的文件系统，HDFS适合很大数据量的应用，数据读写比较高效。HDFS采用master/slave的结构。一般来说，master上运行一个

Namenode节点，而slave上运行一个datanode节点。在master上运行一个Namenode，在一个slave上运行一个Datanode。
Namenode很重要，可以控制文件的增删改查。

四、心得

有了一个非常基本的认识，了解了一个大概的原理，但具体的细节不太清楚，一些接口函数可能还不太熟，另外脑子中还没有一个比较清楚的实际模型。可能要通过实践来

进一步掌握。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop学习笔记

这段时间简单的学习了一下hadoop平台，初步有了一个认识，但是时间看的不多，觉得认识还很浅显，主要看了下MapReduce和HDFS。在这里总结一下。一、概要认识hadoop是有个用于开发并行计算和分布式存储系统的平台。可以用普通的pc机来组成集群，用来部署分布式应用。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。