【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（二）

努力学习呀~

已于 2023-07-24 21:12:04 修改

阅读量158

点赞数

文章标签： hadoop 大数据

于 2023-02-12 14:04:24 首次发布

本文链接：https://blog.csdn.net/weixin_43741856/article/details/128993633

版权

【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（二）

【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（二）

一、Hadoop集群搭建

1.1 Hadoop集群简介

HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起。
HDFS集群负责海量数据的存储，集群中的角色主要有：
（1）NameNode
（2）DataNode
（3）SecondaryNameNode
YARN集群负责海量数据运算时的资源调度，集群中的角色主要有：
（1）ResourceManager
（2）NodeManager
MAPREDUCE是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDFS集群上，并且受到YARN集群的资源调度管理。

1.2 Hadoop集群部署方式

（1）standalone mode（独立模式）：单机模式，仅1个机器运行1个java进程，主要用于调试。
（2）Pseudo-Distributed mode（伪分布式模式）：在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。
（3）Cluster mode（集群模式）：主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

1.3 Hadoop集群架构模型

（1）NameNode单节点与ResourceManager单节点架构模型
在这里插入图片描述
文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据；
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理；
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据。
数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配；
NodeManager：负责执行主节点APPmaster分配的任务。

（2）NameNode高可用与ResourceManager单节点架构模型
在这里插入图片描述
文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，其中NameNode可以有两个，形成高可用状态；
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据；

JournalNode：文件系统元数据信息管理。
数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分；
NodeManager：负责执行主节点ResourceManager分配的任务。

（3）NameNode单节点与ResourceManager高可用架构模型
在这里插入图片描述
文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据；
secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理；
DataNode：集群当中的从节点，主要用于存储集群当中的各种数据。

数据计算核心模块：
ResourceManager：接收用户的计算请求任务，并负责集群的资源分配，以及计算任务的划分，通过zookeeper实现ResourceManager的高可用；
NodeManager：负责执行主节点ResourceManager分配的任务。

（4）NameNode高可用与ResourceManager高可用架构模型
在这里插入图片描述
文件系统核心模块：
NameNode：集群当中的主节点，主要用于管理集群当中的各种数据，一般都是使用两个，实现HA高可用；
JournalNode：元数据信息管理进程，一般都是奇数个；
DataNode：从节点，用于数据的存储。

数据计算核心模块：
ResourceManager：Yarn平台的主节点，主要用于接收各种任务，通过两个，构建成高可用；
NodeManager：Yarn平台的从节点，主要用于处理ResourceManager分配的任务。

1.4 搭建集群规划

集群模式主要用于生产环境部署，需要多台主机，并且这些主机之间可以相互访问，我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。
在这里插入图片描述

二、Hadoop安装包目录结构介绍

解压hadoop-3.3.0-Centos7-64-with-snappy.tar.gz可得到Hadoop的目录结构：
（1）bin
Hadoop最基本的管理脚本和使用脚本的目录，这些脚本是sbin目录下管理脚本的基础实现，用户可以直接使用这些脚本管理和使用Hadoop。
（2）etc
Hadoop配置文件所在的目录，包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
（3）include
外提供的编程库头文件（具体动态库和静态库在lib目录中），这些头文件均是用C++定义的，通常用于C++程序访问HDFS或者编写MapReduce程序。
（4）lib
该目录包含了Hadoop对外提供的编程动态库和静态库，与include目录中的头文件结合使用。
（5）libexec
各个服务对用的shell配置文件所在的目录，可用于配置日志输出、启动参数（比如JVM参数）等基本信息。
（6）sbin
Hadoop管理脚本所在的目录，主要包含HDFS和YARN中各类服务的启动/关闭脚本。
（7）share
Hadoop各个模块编译后的jar包所在的目录，官方自带示例。

三、总结

本文介绍了HDFS集群和YARN集群主要包含的各类角色，并且详细介绍了Hadoop集群架构模型包含四种：（1）NameNode单节点与ResourceManager单节点架构；（2）NameNode高可用与ResourceManager单节点架构；（3）NameNode单节点与ResourceManager高可用架构；（4）NameNode高可用与ResourceManager高可用架构。不同的集群架构模型适用于不同业务场景，可根据实际需求进行选择。通过解压Hadoop安装包，详细介绍了各类文件目录的含义，这也是后续集群搭建与开发需要掌握的。

努力学习呀~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【博学谷学习记录】超强总结，用心分享|Hadoop集群环境搭建（二）

本文介绍了HDFS集群和YARN集群主要包含的各类角色，并且详细介绍了Hadoop集群架构模型包含四种：（1）NameNode单节点与ResourceManager单节点架构；（2）NameNode高可用与ResourceManager单节点架构；（3）NameNode单节点与ResourceManager高可用架构；（4）NameNode高可用与ResourceManager高可用架构。不同的集群架构模型适用于不同业务场景，可根据实际需求进行选择。
复制链接

扫一扫