一、YARN的运行原理
1.1、Yarn的工作流程图
1.2、Yarn流程图详解
如上图所示,Yarn框架流程如下几个步骤:
①、用户编写客户端程序,向Yarn提交应用程序,提交的内容包括ApplicationMaster程序、启动ApplicationMaster
的命令、用户程序等;
②、Yarn中的ResourceManager负责接收和处理来自客户端的请求,待接收到客户端应用程序请求后,
ResourceManager里面的调度器会为应用程序分配一个容器。同时ResourceManager的应用程序管理器会与该
容器所在的NodeManager通信,为该应用程序在该容器中启动一个ApplicationMaster(即图1.1中的MR App
Mstr);
③、ApplicationMaster被创建后会首先向ResourceManager注册,从而使得用户可以通过ResourceManager
来直接查看应用程序的运行状态,接下来的④~⑦是具体的应用程序执行步骤;
④、ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请资源;
⑤、ResourceManager以“容器”的形式向提出申请的ApplicationMaster分配资源,一旦ApplicationMaster申请
到资源后,就会与该容器所在的NodeManager进行通信,要求它启动任务;
⑥、当ApplicationMaster要求启动任务时,它会为任务设置好运行环境(包括环境变量、Jar包、二进制程序等),
然后将任务启动命令写到一个脚本中,最后通过在容器中运行该脚本来启动任务;
⑦、各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,让ApplicationMaster可以随时掌
握各个任务的运行状态,从而可以在任务失败时重新启动任务;
⑧、应用程序运行完成之后,ApplicationMaster向ResourceManager的应用程序管理器注销并关闭自己。若
ApplicationMaster因故失败,ResourceManager中的应用程序会监测到失败的情形,然后将其重启,直到所
有任务执行完毕。
二、YARN的资源配置
1、Yarn的介绍与资源配置
资源设置说明
YARN负责管理MR中的资源(内存,CPU等)并且将其打包成Container。这样可以精简MR使之专注于其
擅长的数据处理任务,将无需考虑资源调度。YARN会管理集群中所有机器可用计算资源,YARN会调度应用
发来的资源请求,然后Yarn会通过分配Container来给每个应用提供处理能力,Container是Yarn中处理能力的
基本单元,是对内存,CPU等的封装。
在Hadoop集群中,平衡内存(RAM)、处理器(CPU核心)和磁盘的使用至关重要,合理规划,可以避免
某项引起瓶颈制约。
注:建议一块磁盘和一个CPU核心上配置两个Container会达到集群利用率的最佳平衡。
Yarn和MR总的可用内存应考虑到保留的内存,保留的内存是由系统进程和其他Hadoop进程(如HBase)所
需要的内存。
注:保留内存 = 保留系统内存 + 保留HBase内存(如果HBase是在同一节点)
保留系统内存设置:主机->所有主机->配置->内存调拨过度验证阈值
2、保留内存的建议如下
3、确定每个节点的Container允许的最大数量
注:Container数量=min(2*cores,1.8*disks,可用内存/最低Container的大小)
最低Container的大小,这个值是依赖于可用的RAM数量。
Container的大小建议
计算每个Container的内存大小:
注:每个Container的内存大小 = max(最小Container内存大小,总的可用内存/Container数)
4、根据计算Yarn和MapReduce配置建议
三、结合集群真实情况配置
开发集群环境
查看CPU数量命令:
cat /proc/cpuinfo | grep "physical id" | uniq | wc -l
查看单个CPU核数命令:
cat /proc/cpuinfo | grep "cpu cores" | uniq
查看CPU总核数命令:
cat /proc/cpuinfo | grep "processor" | wc –l
1、集群节点信息
2、集群的参数配置如下
3、生产集群节点信息
4、集群的参数配置如下
四、Hive的资源配置设置
1、参数解释与配置