Spark整合yarn
原因:在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架
停止spark集群
在spark sbin目录下执行
./stop-all.sh
spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件
1、增加hadoop 配置文件地址
vim spark-env.sh
增加 exportHADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop
2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)
先关闭yarn
stop-all.sh
cd /usr/local/soft/hadoop-2.7.6/etc/hadoop
vim yarn-site.xml
增加配置
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
3.spark on yarn client模式 日志在本地输出,一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client spark-examples_2.11-2.4.5.jar 100
4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster spark-examples_2.11-2.4.5.jar 100
获取yarn程序执行日志 执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003
将spark代码打成 jar 包提交到集群中运行
代码如下:
package com.core.day2
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import com.core.utils.HdfsUtil
object Demo18SparkYarnSubmit {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
conf.setAppName("submit")
/**
* 提交到集群运行需要注释master
*
*/
//conf.setMaster("local")
val sc = new SparkContext(conf)
//读取hdfs中的文件
val lineRDD: RDD[String] = sc.textFile("/spark/data/")
//取出班级
val clazzRDD: RDD[(String, Int)] = lineRDD.map((line:String) => {
val slazz: String = line.split(",")(4)
(slazz,1)
})
//统计班级人数
val clazz_sunRDD: RDD[(String, Int)] = clazzRDD.reduceByKey(_ + _)
//整理数据
val resultRDD: RDD[String] = clazz_sunRDD.map{
case (clazz:String, clazz_sum:Int) =>
s"班级名称:$clazz,班级人数:$clazz_sum"
}
/**
* 保存数据之前删除已经存在的路径
*
*/
HdfsUtil.delete("/spark/target")
//将数据保存到hdfs中
resultRDD.saveAsTextFile("/spark/target")
/**
* 将项目打包上传到服务器
*
* spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
*
*/
}
}
编写工具类,直接调用。
启动命令
spark-submit --master yarn-client --class com.core.day2.Demo18SparkYarnSubmit spark-1.0-SNAPSHOT.jar
运行结果如下:
任务使用client和cluster区别(重点)
client
cluster
Spark架构