hadoop三大核心组件

最新推荐文章于 2024-05-09 13:31:07 发布

呆小黎

最新推荐文章于 2024-05-09 13:31:07 发布

阅读量2.9k

点赞数 1

文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/weixin_46738406/article/details/109532049

版权

Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
（1）HDFS集群：负责海量数据的存储，集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。
（2）YARN集群：负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager
（3）MapReduce：它其实是一个应用程序开发包。
一、HDFS
HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。架构如下图：

A、NameNode
一般情况下，单namenode集群的最大集群规模为4000台
NameNode负责：文件元数据信息的操作以及处理客户端的请求
NameNode管理：HDFS文件系统的命名空间NameSpace。
NameNode维护：文件系统树（FileSystem）以及文件树中所有的文件和文件夹的元数据信息（matedata）
维护文件到块的对应关系和块到节点的对应关系
NameNode文件：namespace镜像文件（fsimage），操作日志文件（edit log）
这些信息被Cache在RAM中，当然这两个文件也会被持久化存储在本地硬盘。
NameNode记录：每个文件中各个块所在的数据节点的位置信息。
但它并不永久保存块的位置信息，因为这些信息在系统启动时由数据节点重建。
从数据节点重建：在nameNode启动时，DataNode向NameNode进行注册时发送给NameNode
1、NameNode元数据信息
文件名，文件目录结构，文件属性(生成时间，副本数，权限)每个文件的块列表。
以及列表中的块与块所在的DataNode之间的地址映射关系
在内存中加载文件系统中每个文件和每个数据块的引用关系(文件、block、datanode之间的映射信息)
数据会定期保存到本地磁盘，但不保存block的位置信息而是由Da

最低0.47元/天解锁文章

呆小黎

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
hadoop三大核心组件

Hadoop集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。（1）HDFS集群：负责海量数据的存储，集群中的角色主要有 NameNode / DataNode/SecondaryNameNode。（2）YARN集群：负责海量数据运算时的资源调度，集群中的角色主要有 ResourceManager /NodeManager（3）MapReduce：它其实是一个应用程序开发包。一、HDFSHDFS是一个高度容错性
复制链接

扫一扫