Spark整合yarn

最新推荐文章于 2024-04-21 09:15:49 发布

a-tao必须奥利给

最新推荐文章于 2024-04-21 09:15:49 发布

阅读量691

点赞数 1

文章标签： spark 大数据 scala 分布式开发语言

本文链接：https://blog.csdn.net/weixin_48370579/article/details/125802151

版权

Spark整合yarn

原因：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群

在spark sbin目录下执行 

./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加 exportHADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-all.sh

cd /usr/local/soft/hadoop-2.7.6/etc/hadoop

vim yarn-site.xml

增加配置
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

3.spark on yarn client模式日志在本地输出，一班用于上线前测试

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client spark-examples_2.11-2.4.5.jar 100

4.spark on yarn cluster模式上线使用，不会再本地打印日志减少io

spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志  执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

将spark代码打成 jar 包提交到集群中运行

代码如下：

package com.core.day2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import com.core.utils.HdfsUtil

object Demo18SparkYarnSubmit {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()

    conf.setAppName("submit")


    /**
     * 提交到集群运行需要注释master
     *
     */
     //conf.setMaster("local")

    val sc = new SparkContext(conf)

    //读取hdfs中的文件
    val lineRDD: RDD[String] = sc.textFile("/spark/data/")

    //取出班级
    val clazzRDD: RDD[(String, Int)] = lineRDD.map((line:String) => {
      val slazz: String = line.split(",")(4)
      (slazz,1)
    })

    //统计班级人数
    val clazz_sunRDD: RDD[(String, Int)] = clazzRDD.reduceByKey(_ + _)

    //整理数据
    val resultRDD: RDD[String] = clazz_sunRDD.map{
      case (clazz:String, clazz_sum:Int) =>
        s"班级名称：$clazz,班级人数：$clazz_sum"
    }

    /**
     * 保存数据之前删除已经存在的路径
     *
     */
    HdfsUtil.delete("/spark/target")

    //将数据保存到hdfs中
    resultRDD.saveAsTextFile("/spark/target")

    /**
     * 将项目打包上传到服务器
     *
     * spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
     *
     */
  }
}

编写工具类，直接调用。

启动命令

spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar

运行结果如下：

任务使用client和cluster区别(重点)

client

cluster

Spark架构

a-tao必须奥利给

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark整合yarn

Spark整合yarn原因：在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架停止spark集群在spark sbin目录下执行 ./stop-all.shspark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件1、增加hadoop 配置文件地址vim spark-env.sh增加 e...
复制链接

扫一扫