hadoop2的重大变化简介

最新推荐文章于 2021-10-17 21:43:59 发布

ladooz

最新推荐文章于 2021-10-17 21:43:59 发布

阅读量1.1k

点赞数 1

分类专栏：大数据文章标签： hadoop

大数据专栏收录该内容

6 篇文章 0 订阅

订阅专栏

本文深入解析了Hadoop2相对于Hadoop1的显著改进，特别是HDFS联邦与YARN架构的革新。阐述了HDFS联邦如何通过增加多个NameNode/namespace解决原有架构限制，以及YARN如何在引入的0.23版本中，将JobTracker的主要功能拆分为独立的ResourceManager和joblife-cyclemanagement组件，显著提升文件系统操作效率。

摘要由CSDN通过智能技术生成

转载请注明: hadoop2的重大变化简介 | 吴超沉思录 +复制链接

hadoop2相对hadoop1有非常重大的改进。

下面看一下在HDFS和MapReduce方面的改进：

HDFS Federation（HDFS联邦）

HDFS有两个主要层：

Namespace 由目录、文件和块组成；支持所有命名空间对文件和目录的操作。

Block Storage Service 由Block Management和Storage组成。

Block Management 提供dataNode集群成员关系，注册信息和周期性的心跳；处理块报告，维护块位置；支持块相关的操作，如创建、删除、修改等；管理副本数量、位置，删除多余副本；

Storag是dataNode提供的。

之前的HDFS架构只允许存在一个namespace。一个Namenode管理这个namespace。HDFS联邦通过增加多个namenode/namespace来解决这个先前架构的限制。

HDFS联邦使用多个独立的NameNode/Namespace。NameNode是联邦的，意味着他们是独立的，不会要求相互协作。DataNode是存储block的。每个DataNode都在集群中的所有NameNode注册。DataNode发送周期性的心跳和block报告，并且处理NameNode发回的命令。

一个block pool 是块的集合，这些块属于一个单一的namespace。Datanode存储着集群中所有block pool中的块。block pool的管理相互之间是独立的。这意味着一个namespace可以独立的生成块ID，不需要与其他namespace协调。一个Namenode失败不会导致Datanode的失败，这些Datanode还可以服务其他Namenode。

一个Namespace和他的block pool一起称作namespace volume。这是一个自包含单元。当一个namenode/namespace删除后，对应的block pool也会被删除。当集群升级时，每个namespace volume也会升级。

ClusterID是用来标示集群中所有节点的。当Namenode格式化时，这个id会自动产生。

多namenode/namespace的好处：