大数据学习(28)-Yarn总结与注意事项

viperrrrrrr

已于 2023-12-20 20:53:26 修改

阅读量948

点赞数 24

文章标签：大数据学习

于 2023-12-19 20:36:53 首次发布

本文链接：https://blog.csdn.net/weixin_61006262/article/details/135093466

版权

&&大数据学习&&

🔥系列专栏： 👑哲学语录: 承认自己的无知，乃是开启智慧的大门
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

一、概述

YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统中的一个组件，用于管理和调度分布式应用程序。它提供了一个可扩展的框架，用于处理大规模数据和分布式计算任务。YARN的主要目标是提供更高效、灵活和可扩展的资源管理，以满足Hadoop生态系统中的各种应用程序需求。

二、YARN的核心组件

ResourceManager（RM）：ResourceManager是YARN中的主要组件，负责整个集群的资源管理和调度。它负责接收来自应用程序的资源请求，并根据集群的当前状态分配资源。
NodeManager（NM）：NodeManager是集群中的工作节点，负责管理单个节点的资源。它负责启动、监视和停止应用程序容器，并报告容器的状态和资源使用情况。
ApplicationMaster（AM）：ApplicationMaster是每个应用程序特有的组件，负责协调和管理应用程序的生命周期。它与ResourceManager交互，以获取资源并跟踪应用程序的状态。
Container：Container是YARN中的基本工作单元，用于运行应用程序的代码和进程。每个Container都包含一个应用程序的特定任务或进程。

三、YARN的工作流程

应用程序提交：用户将应用程序提交给ResourceManager。
资源分配：ResourceManager根据应用程序的需求和集群的状态，为应用程序分配资源。
ApplicationMaster启动：ApplicationMaster启动并与管理员交互，以获取更多资源或进行任务调度。
容器分配：ApplicationMaster向ResourceManager请求容器资源，ResourceManager将容器分配给ApplicationMaster。
容器启动：NodeManager根据容器的配置启动容器，并将容器状态报告给ResourceManager。
任务执行：容器执行应用程序的任务或进程。
任务状态跟踪：ApplicationMaster与ResourceManager和NodeManager交互，以跟踪应用程序的状态和进度。
应用程序完成：应用程序完成执行后，ApplicationMaster向ResourceManager报告应用程序的状态，ResourceManager将资源释放回集群。

YARN的执行流程包括以下几个步骤：

用户向YARN中提交应用程序，其中包括ApplicationMaster（AM）程序、启动AM的命令以及用户程序等。
AM首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态。
AM采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
一旦AM申请到资源后，便与对应的NodeManager通信，要求它启动任务。
NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。
各个任务通过某个RPC协议向AM汇报自己的状态和进度，以让AM随时掌握各个任务的运行状态，从而可以在任务失败的时候重新启动任务。
应用程序运行完成后，AM向ResourceManager注销并关闭自己。

四、执行流程：

用户向YARN中提交应用程序，其中包括ApplicationMaster（AM）程序、启动AM的命令以及用户程序等。
AM首先向ResourceManager注册，这样用户可以直接通过ResourceManager查看应用程序的运行状态。
AM采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
一旦AM申请到资源后，便与对应的NodeManager通信，要求它启动任务。
NodeManager为任务设置好运行环境（包括环境变量、JAR包、二进制程序等）后，将任务启动命令写到一个脚本中，并通过运行该脚本启动任务。
各个任务通过某个RPC协议向AM汇报自己的状态和进度，以让AM随时掌握各个任务的运行状态，从而可以在任务失败的时候重新启动任务。
应用程序运行完成后，AM向ResourceManager注销并关闭自己。

以下是在Linux环境中部署YARN（Hadoop的资源管理器）的详细步骤。这里假设你已经安装了Java和Hadoop。

1. **下载并解压Hadoop：**
- 下载适合你的操作系统的Hadoop版本，例如从Apache官网下载。
- 解压下载的Hadoop压缩包，例如：
```

   tar -zxvf hadoop-3.x.x.tar.gz

```

2. **配置环境变量：**
- 编辑`~/.bashrc`或`~/.bash_profile`文件，添加以下环境变量：
```

   export HADOOP_HOME=/path/to/your/hadoop/directory
   export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3. **配置Hadoop：**
- 编辑core-site.xml文件，配置HDFS和YARN的基础信息，例如：

   <configuration>
     <property>
       <name>fs.defaultFS</name>
       <value>hdfs://localhost:9000</value>
     </property>
     <property>
       <name>hadoop.tmp.dir</name>
       <value>/path/to/your/hadoop/tmp</value>
     </property>
   </configuration>
   ```
   - 编辑yarn-site.xml文件，配置YARN的相关参数，例如：
   ```xml
   <configuration>
     <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
     </property>
     <property>
       <name>yarn.resourcemanager.hostname</name>
       <value>localhost</value>
     </property>
   </configuration>

4. **格式化HDFS：**
- 在Hadoop目录下运行以下命令来格式化HDFS：

   hdfs namenode -format

5. **启动Hadoop服务：**
- 启动HDFS和YARN服务：

   sbin/start-dfs.sh
   sbin/start-yarn.sh

应该能看到NameNode、DataNode、ResourceManager、NodeManager等进程。

以上就是在Linux环境中部署YARN的基本步骤。请注意，这只是一个基本的单节点部署，实际生产环境中可能需要进行更复杂的配置和优化。

需要注意的是：在开启hiveserver2后连接需要关闭hdfs和yarn才可以连接，因为之前的许多配置项还米有生效。

viperrrrrrr

关注

24
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
大数据学习(28)-Yarn总结与注意事项

YARN（Yet Another Resource Negotiator）是Apache Hadoop生态系统中的一个组件，用于管理和调度分布式应用程序。它提供了一个可扩展的框架，用于处理大规模数据和分布式计算任务。YARN的主要目标是提供更高效、灵活和可扩展的资源管理，以满足Hadoop生态系统中的各种应用程序需求。
复制链接

扫一扫