Spark整合yarn

Spark整合yarn

原因:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架
停止spark集群
在spark sbin目录下执行 

./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件
1、增加hadoop 配置文件地址
vim spark-env.sh
增加 exportHADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)
先关闭yarn
stop-all.sh

cd /usr/local/soft/hadoop-2.7.6/etc/hadoop

vim yarn-site.xml

增加配置
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

3.spark on yarn client模式 日志在本地输出,一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client spark-examples_2.11-2.4.5.jar 100
4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster spark-examples_2.11-2.4.5.jar 100
获取yarn程序执行日志  执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

将spark代码打成 jar 包提交到集群中运行

代码如下:
package com.core.day2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import com.core.utils.HdfsUtil

object Demo18SparkYarnSubmit {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()

    conf.setAppName("submit")


    /**
     * 提交到集群运行需要注释master
     *
     */
     //conf.setMaster("local")

    val sc = new SparkContext(conf)

    //读取hdfs中的文件
    val lineRDD: RDD[String] = sc.textFile("/spark/data/")

    //取出班级
    val clazzRDD: RDD[(String, Int)] = lineRDD.map((line:String) => {
      val slazz: String = line.split(",")(4)
      (slazz,1)
    })

    //统计班级人数
    val clazz_sunRDD: RDD[(String, Int)] = clazzRDD.reduceByKey(_ + _)

    //整理数据
    val resultRDD: RDD[String] = clazz_sunRDD.map{
      case (clazz:String, clazz_sum:Int) =>
        s"班级名称:$clazz,班级人数:$clazz_sum"
    }

    /**
     * 保存数据之前删除已经存在的路径
     *
     */
    HdfsUtil.delete("/spark/target")

    //将数据保存到hdfs中
    resultRDD.saveAsTextFile("/spark/target")

    /**
     * 将项目打包上传到服务器
     *
     * spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
     *
     */
  }
}
编写工具类,直接调用。

启动命令
spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
运行结果如下:

任务使用clientcluster区别(重点)

client

cluster

Spark架构

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值