好记性不如烂笔头---YARN作业运行机制

       YARN将jobtracker的职能进行了划分,划分了两个独立的守护进程:管理集群上资源使用的资源管理器ResourceManager,管理集群上运行任务生命周期的应用管理器ApplicationMaster。基本思路是:AM与RM协商集群的计算资源:容器Container,在容器上运行特定应用程序的进程。容器由集群节点上运行的集群管理器NodeManager监视,以确保应用程序使用的资源不会超过分配给他的资源。

       作业提交:从RM获取新作业的ID,作业客户端检查作业的输出说明,计算输入分片,将作业资源(包括作业JAR,配置和分片信息)复制到HDFS上,最后通过调用RM上的submitApplication()方法提交作业。

       作业初始化:RM收到调用它的submitApplication()消息后,便将请求传递给调度器Schedule,调度器分配一个容器,RM在NM的管理下在容器中启动应用进程的master进程,即启动一个AM,AM是一个JAVA应用程序,AM对作业进行初始化:通过创建多个簿记对象以保持对作业进度的跟踪,它将接受来自任务的进度和完成报告,接下来他接受来自共享文件系统的客户端计算的输入分片。对每一个分片创建一个map任务对象以及多个reduce任务(数量由mapreduce.job.reduces属性确定)。接下来,AM决定如何运行构成mapreduce作业的各个任务。

       任务分配:若不使用Uber模式,AM为该作业的所有map任务和reduce任务向RM请求容器。附着心跳信息请求和每个map任务的数据本地化信息,调度器使用这些信息做调度决策。请求也为任务指定了内存需求,默认情况下,map任务和reduce任务都分配到1024mb的内存,可以通过mapreduce.map.memory.mb和mapreduce.reduce.memory.mb来设置。MapReduce1中tasktracker在集群配置时设置的固定数量的槽,每个任务在一个槽上运行,槽有最大内存分配限制,当任务使用较少内存时无法充分利用内存以及由于任务不能获取足够内存而导致作业失败,YARN将资源分为更细的粒度,可以避免上述问题,具体而言:应用程序可以请求最小到最大限制范围内的任意最小值倍数的内存容量,默认的内存分配容量是调度器特定的,对于容器调度器,他的默认最小值是1024MB,默认最大值是10240MB。

       任务执行:一旦RM的调度器为任务分配了容器,AM就与NM通信来启动容器,首先将任务需要的资源本地化,包括作业的配置、JAR文件和所有来自分布式缓存的文件。最后运行map任务或reduce任务。

### 回答1: 要将作业提交到CDH6.3.2的YARN集群上,需要使用以下命令: ``` spark-submit --master yarn --deploy-mode client --class <main-class> <application-jar> <application-arguments> ``` 其中,`<main-class>`是你的应用程序的主类,`<application-jar>`是你的应用程序的jar包路径,`<application-arguments>`是你的应用程序的参数。 例如,如果你的应用程序的主类是`com.example.MyApp`,jar包路径是`/path/to/myapp.jar`,应用程序需要传递两个参数`arg1`和`arg2`,则提交作业的命令如下: ``` spark-submit --master yarn --deploy-mode client --class com.example.MyApp /path/to/myapp.jar arg1 arg2 ``` 提交作业后,Spark将在YARN集群上启动应用程序,并将日志输出到YARN的应用程序日志中。你可以使用YARN的命令行工具或Web UI来监视应用程序的运行状态和日志输出。 ### 回答2: 在CDH6.3.2框架中,使用spark-submit命令可以将作业提交到YARN资源管理器,实现分布式部署执行作业的功能。 具体步骤如下: 1. 在终端中使用spark-submit命令,指定主类名、执行参数等信息。 例如: ```bash spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-memory 2g \ --executor-cores 2 \ /path/to/examples.jar 100 ``` --class参数指定执行的主类名,对应的jar文件已经上传至HDFS上。 --master参数指定使用YARN作为资源管理器,--deploy-mode参数指定执行模式为集群模式。 --num-executors参数指定申请的Executor个数。 --driver-memory参数指定Driver进程需要使用的内存大小,同样可以指定Executor进程的内存和核数。 2. 执行以上命令后,YARN资源管理器会为任务分配相应的资源,并启动作业执行。 3. 可以通过YARN界面查看作业的运行状况,包括Container的个数、启动时间、资源使用情况等。 4. 执行完成后,可以在日志文件和任务的输出目录中查看作业的输出结果。 总的来说,通过spark-submit命令提交作业YARN非常方便,只需指定相应的参数即可实现作业的分布式部署,提高执行效率并节省时间。 ### 回答3: CDH 6.3.2 是包含了 Hadoop、Hive、Spark 等组件的大数据平台。要提交 Spark 作业YARN 集群,需要使用 spark-submit 命令。 首先,要确保已经安装了 CDH 6.3.2 和 Spark。然后,在本地编写好 Spark 作业代码,并上传到集群中的一个路径。 接下来,通过以下命令提交 Spark 作业: ``` spark-submit \ --class com.example.YourMainClass \ --master yarn \ --deploy-mode client \ --num-executors 4 \ --executor-memory 4g \ --executor-cores 2 \ /path/to/your/spark/job.jar \ arg1 arg2 ``` 其中,`--class` 参数指定主类,`--master yarn` 表示使用 YARN 集群作为 Spark 的资源管理器,`--deploy-mode client` 表示客户端模式, `--num-executors`、`--executor-memory` 和 `--executor-cores` 分别是设定 Spark 应用程序执行所需的 executor 数量、每个 executor 占用的内存和 CPU 核心数量。`/path/to/your/spark/job.jar` 是你上传的 Spark 作业包的路径,`arg1` 和 `arg2` 是你的应用程序所需要的参数。 提交成功后,Spark 应用程序就会在 YARN 上执行,输出结果会被打印到标准输出中或者存储到指定路径。 需要注意的是,提交的 Spark 作业路径和参数是相对于 YARN 集群上的路径和参数,而不是本地路径和参数。另外,如果采用了集群管理工具 Cloudera Manager 管理 CDH 6.3.2,也可以通过其提供的界面来提交 Spark 作业,更加方便快捷。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值