hadoop笔记一

最新推荐文章于 2024-05-28 13:26:13 发布

置顶 e生态_修身

最新推荐文章于 2024-05-28 13:26:13 发布

阅读量651

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ysl_228/article/details/21734845

版权

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。

是 Apache 下的一个项目，由 HDFS 、 MapReduce 、 HBase 、 Hive 和 ZooKeeper 等成员组成。其中， HDFS 和 MapReduce 是两个最基础最重要的成员

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System ^[3] （HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS（对于本文）的上一层是 MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成

hadoop两部分组成

1、分布式文件系统（ HDFS Hadoop distributed FileSystem ）

2、MapReduce

hadoop两大类角色：

1、master 主服务器

2、salve 子服务器

1、分布式文件系统

1、NameNode 作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作(CRUD)

统计数据需要多大的空间，多少个DataNode块，进行存储数据

2、DataNode 管理存储的数据

数据真正储存的节点内容、或者物理地址存储（blockID-块地址, data- 数据）

hadoop启动时会将dataNode节点的数据主动上传到NameNode空间中，让所有的数据都让nameNode维护起来，DataNode与NameNode保持心跳（实时通信）实现数据共享、

2、 MapReduce 分布式计算和任务处理 JobTrackers 和 TaskTrackers 组成

1、Map 接受数据并且将数据抓换成key \ value形式保存

2、Reduce 对Map进行逻辑处理排序、计算、处理的逻辑处理

同时又两个集中处理的子任务

1、 JobTracker、分解任务的执行

2、TaskTracker、任务的执行（分解出来的任务执行（存储在硬盘或DataNode））

假设输入域是 one small step for man,one giant leap for mankind。在这个域上运行 Map 函数将得出以下的键/值对列表：

（one,1） (small,1） (step,1） (for,1） (man,1）

MapReduce 流程的概念流

(one,1） (giant,1） (leap,1） (for,1） (mankind,1）

如果对这个键/值对列表应用 Reduce 函数，将得到以下一组键/值对：

（one,2） (small,1） (step,1） (for,2） (man,1）（giant,1） (leap,1） (mankind,1）

HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，

MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop笔记一

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。是Apache 下的一个项目，由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System[3]（HDFS），它存储 Hadoop 集群
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。