Hadoop资源配置

最新推荐文章于 2022-10-28 11:27:19 发布

斗罗昊天锤

最新推荐文章于 2022-10-28 11:27:19 发布

阅读量1k

点赞数 2

分类专栏： # Hadoop安装文章标签： hadoop 大数据

本文链接：https://blog.csdn.net/xuanalex/article/details/105373171

版权

Hadoop安装专栏收录该内容

10 篇文章 1 订阅

订阅专栏

一、YARN的运行原理

1.1、Yarn的工作流程图

图1.1 Yarn流程图

1.2、Yarn流程图详解

如上图所示，Yarn框架流程如下几个步骤：

①、用户编写客户端程序，向Yarn提交应用程序，提交的内容包括ApplicationMaster程序、启动ApplicationMaster
的命令、用户程序等；
②、Yarn中的ResourceManager负责接收和处理来自客户端的请求，待接收到客户端应用程序请求后，
ResourceManager里面的调度器会为应用程序分配一个容器。同时ResourceManager的应用程序管理器会与该
容器所在的NodeManager通信，为该应用程序在该容器中启动一个ApplicationMaster（即图1.1中的MR App 
Mstr）；
③、ApplicationMaster被创建后会首先向ResourceManager注册，从而使得用户可以通过ResourceManager
来直接查看应用程序的运行状态，接下来的④~⑦是具体的应用程序执行步骤；
④、ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源；
⑤、ResourceManager以“容器”的形式向提出申请的ApplicationMaster分配资源，一旦ApplicationMaster申请
到资源后，就会与该容器所在的NodeManager进行通信，要求它启动任务；
⑥、当ApplicationMaster要求启动任务时，它会为任务设置好运行环境（包括环境变量、Jar包、二进制程序等），
然后将任务启动命令写到一个脚本中，最后通过在容器中运行该脚本来启动任务；
⑦、各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度，让ApplicationMaster可以随时掌
握各个任务的运行状态，从而可以在任务失败时重新启动任务；
⑧、应用程序运行完成之后，ApplicationMaster向ResourceManager的应用程序管理器注销并关闭自己。若
ApplicationMaster因故失败，ResourceManager中的应用程序会监测到失败的情形，然后将其重启，直到所
有任务执行完毕。

二、YARN的资源配置

1、Yarn的介绍与资源配置

资源设置说明

	YARN负责管理MR中的资源（内存，CPU等）并且将其打包成Container。这样可以精简MR使之专注于其
擅长的数据处理任务，将无需考虑资源调度。YARN会管理集群中所有机器可用计算资源，YARN会调度应用
发来的资源请求，然后Yarn会通过分配Container来给每个应用提供处理能力，Container是Yarn中处理能力的
基本单元，是对内存，CPU等的封装。
	在Hadoop集群中，平衡内存（RAM）、处理器（CPU核心）和磁盘的使用至关重要，合理规划，可以避免
某项引起瓶颈制约。

注：建议一块磁盘和一个CPU核心上配置两个Container会达到集群利用率的最佳平衡。

	Yarn和MR总的可用内存应考虑到保留的内存，保留的内存是由系统进程和其他Hadoop进程（如HBase）所
需要的内存。

注：保留内存 = 保留系统内存 + 保留HBase内存（如果HBase是在同一节点）
保留系统内存设置：主机->所有主机->配置->内存调拨过度验证阈值

2、保留内存的建议如下

在这里插入图片描述

3、确定每个节点的Container允许的最大数量

注：Container数量=min(2*cores,1.8*disks,可用内存/最低Container的大小)
最低Container的大小，这个值是依赖于可用的RAM数量。

Container的大小建议
在这里插入图片描述
计算每个Container的内存大小：

注：每个Container的内存大小 = max(最小Container内存大小，总的可用内存/Container数)

4、根据计算Yarn和MapReduce配置建议

在这里插入图片描述

三、结合集群真实情况配置

开发集群环境

查看CPU数量命令：
	cat /proc/cpuinfo | grep "physical id" | uniq | wc -l
查看单个CPU核数命令：
	cat /proc/cpuinfo | grep "cpu cores" | uniq
查看CPU总核数命令：
	cat /proc/cpuinfo | grep "processor" | wc –l