【博学谷学习记录】超强总结,用心分享|Hadoop集群环境搭建(二)

【博学谷学习记录】超强总结,用心分享|Hadoop集群环境搭建(二)

一、Hadoop集群搭建

1.1 Hadoop集群简介

HADOOP集群具体来说包含两个集群:HDFS集群YARN集群,两者逻辑上分离,但物理上常在一起。
HDFS集群负责海量数据的存储,集群中的角色主要有:
(1)NameNode
(2)DataNode
(3)SecondaryNameNode
YARN集群负责海量数据运算时的资源调度,集群中的角色主要有:
(1)ResourceManager
(2)NodeManager
MAPREDUCE是一个分布式运算编程框架,是应用程序开发包,由用户按照编程规范进行程序开发,后打包运行在HDFS集群上,并且受到YARN集群的资源调度管理。

1.2 Hadoop集群部署方式

(1)standalone mode(独立模式):单机模式,仅1个机器运行1个java进程,主要用于调试。
(2)Pseudo-Distributed mode(伪分布式模式):在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,但分别启动单独的java进程,主要用于调试。
(3)Cluster mode(集群模式):主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署在不同的机器上。

1.3 Hadoop集群架构模型

(1)NameNode单节点与ResourceManager单节点架构模型
在这里插入图片描述
文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据;
secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理;
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据。
数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配;
NodeManager:负责执行主节点APPmaster分配的任务。

(2)NameNode高可用与ResourceManager单节点架构模型
在这里插入图片描述
文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,其中NameNode可以有两个,形成高可用状态;
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据;

JournalNode:文件系统元数据信息管理。
数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分;
NodeManager:负责执行主节点ResourceManager分配的任务。

(3)NameNode单节点与ResourceManager高可用架构模型
在这里插入图片描述
文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据;
secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理;
DataNode:集群当中的从节点,主要用于存储集群当中的各种数据。

数据计算核心模块
ResourceManager:接收用户的计算请求任务,并负责集群的资源分配,以及计算任务的划分,通过zookeeper实现ResourceManager的高可用;
NodeManager:负责执行主节点ResourceManager分配的任务。

(4)NameNode高可用与ResourceManager高可用架构模型
在这里插入图片描述
文件系统核心模块
NameNode:集群当中的主节点,主要用于管理集群当中的各种数据,一般都是使用两个,实现HA高可用;
JournalNode:元数据信息管理进程,一般都是奇数个;
DataNode:从节点,用于数据的存储。

数据计算核心模块
ResourceManager:Yarn平台的主节点,主要用于接收各种任务,通过两个,构建成高可用;
NodeManager:Yarn平台的从节点,主要用于处理ResourceManager分配的任务。

1.4 搭建集群规划

集群模式主要用于生产环境部署,需要多台主机,并且这些主机之间可以相互访问,我们在之前搭建好基础环境的三台虚拟机上进行Hadoop的搭建。
在这里插入图片描述

二、Hadoop安装包目录结构介绍

解压hadoop-3.3.0-Centos7-64-with-snappy.tar.gz可得到Hadoop的目录结构:
(1)bin
Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
(2)etc
Hadoop配置文件所在的目录,包括core-site,xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
(3)include
外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
(4)lib
该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
(5)libexec
各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
(6)sbin
Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本
(7)share
Hadoop各个模块编译后的jar包所在的目录,官方自带示例。

三、总结

本文介绍了HDFS集群和YARN集群主要包含的各类角色,并且详细介绍了Hadoop集群架构模型包含四种:(1)NameNode单节点与ResourceManager单节点架构;(2)NameNode高可用与ResourceManager单节点架构;(3)NameNode单节点与ResourceManager高可用架构;(4)NameNode高可用与ResourceManager高可用架构。不同的集群架构模型适用于不同业务场景,可根据实际需求进行选择。通过解压Hadoop安装包,详细介绍了各类文件目录的含义,这也是后续集群搭建与开发需要掌握的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值