spark-2.2.0-bin-2.6.1-cdh5.7.1 编译部署(三)

1. 相关说明:

spark编译部署后市需要做优化调整的,特别是生产环境,本篇会不断记录更新优化调整点。

2. 调整spark-shell日志输出级别:

# 进入spark家目录的conf目录
cd /usr/local/spark/conf

# 配置spark-shell的日志级别
cp -av log4j.properties.template log4j.properties
sed -i 's/log4j.logger.org.apache.spark.repl.Main=WARN/log4j.logger.org.apache.spark.repl.Main=INFO/g' log4j.properties 
# 修改spark-shell的日志输出级别为INFO
# 即 log4j.logger.org.apache.spark.repl.Main=INFO

3. 使用 spark.yarn.jars或spark.yarn.archive 简单优化:

在启动spark-shell时发现警告日志:
WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set,
falling back to uploading libraries under SPARK_HOME.
因为没有配置spark.yarn.jars或spark.yarn.archive,
每次启动spark-shell都会将本地SPARK_HOME下的lib目录上传到hdfs,
当spark作业教多时,会频繁的反复的上传这些lib,严重占用IO,增加响应时间,
降低hdfs性能和空间,需要使用这俩参数对此问题进行优化,
防止不必要的jar包上传与分发
参考文档 http://spark.apache.org/docs/latest/running-on-yarn.html
参数 spark.yarn.jars 指向文件
参数 spark.yarn.archive 指向目录
俩参数配置一个即可,只要能找到所需的jar包就可以了

参数 spark.yarn.jars:

hdfs dfs -mkdir hdfs:///spark_jars/
cd $SPARK_HOME/jars
hdfs dfs -put * hdfs:///spark_jars/
# 将所需要的公共的所有jar包上传

cd $SPARK_HOME/conf
cp -av spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
spark.yarn.jars    hdfs:///spark_jars/*
# 注意参数不能指向一个目录
# hdfs:///spark_jars 或 hdfs:///spark_jars/ 错误
# hdfs:///spark_jars/* 或者 hdfs:///spark_jars/*.jar 正确

# 测试:
spark-shell --master yarn
# 发现日志 INFO Client: Source and destination file systems are the same. Not copying...
# 表示已经优化成功

参数 spark.yarn.archive:

hdfs dfs -mkdir hdfs:///spark_jars_archive/
cd $SPARK_HOME/jars
hdfs dfs -put * hdfs:///spark_jars_archive/
# 将所需要的公共的所有jar包上传

cd $SPARK_HOME/conf
cp -av spark-defaults.conf.template spark-defaults.conf
vi spark-defaults.conf
spark.yarn.archive hdfs:///spark_jars_archive

# 测试:
spark-shell --master yarn
# 发现日志 INFO Client: Source and destination file systems are the same. Not copying...
# 表示已经优化成功

4. 额外的ClassPath参数:

有两个参数,可以设置一个额外的jar包位置:
spark.executor.extraClassPath和spark.driver.extraClassPath,
俩参数必须同时使用且指向同一个jar包,
也就是说,默认的ClassPath下的jar包必须同时设置spark.executor和spark.driver才可以使用:

cd $SPARK_HOME/conf
hdfs dfs -rm hdfs:///spark_jars/mysql-connector-java-*.jar
hdfs dfs -rm hdfs:///spark_jars_archive/mysql-connector-java-*.jar
# 删掉spark.yarn.jars和spark.yarn.archive中的mysql驱动jar包
rm -rf $SPARK_HOME/jars/mysql-connector-java-*.jar
# 同时要删除复制到系统jars目录下的jar包

vi spark-defaults.conf
spark.executor.extraClassPath /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar
spark.driver.extraClassPath   /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar
# 额外的ClassPath 需要俩参数一起配置使用,否则不生效
# 配置额外的执行和驱动ClassPath

# 注意:

# 不能指向一个存放jar包的目录
# spark.executor.extraClassPath /usr/local/hive/lib/
# spark.driver.extraClassPath   /usr/local/hive/lib/

# 不能使用*号匹配
# spark.executor.extraClassPath /usr/local/hive/lib/*
# spark.driver.extraClassPath   /usr/local/hive/lib/*
# spark.executor.extraClassPath /usr/local/hive/lib/*.jar
# spark.driver.extraClassPath   /usr/local/hive/lib/*.jar

# 一组只能额外匹配一个jar包,不能匹配多个
# spark.executor.extraClassPath jar1,jar2
# spark.driver.extraClassPath   jar1,jar2
# spark.executor.extraClassPath jar1 jar2
# spark.driver.extraClassPath   jar1 jar2

# 不可以设置多组,设置多组的情况,以最后设置的生效
# spark.executor.extraClassPath /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar
# spark.driver.extraClassPath   /usr/local/hive/lib/mysql-connector-java-5.1.45-bin.jar
# spark.executor.extraClassPath /usr/local/spark/jars/spark-core_2.11-2.2.0.jar
# spark.driver.extraClassPath   /usr/local/spark/jars/spark-core_2.11-2.2.0.jar
# 报错mysql的驱动jar包找不到,被spark-core顶替掉了

spark-shell --master yarn
# 正常运行

5. 作业并行度:

每启动一个spark-shell,会打开一个WebUI,端口依次从4040往下排,
默认的作业并行度是16,即最大端口为4040+16=4016,共17个,
调整参数为 spark.port.maxRetries:

spark.port.maxRetries 10000
# 默认16,第一个作业WebUI端口是4040,第二个作业WebUI端口是4041
# 依次累加,也就是同时能够打开的spark作业只有17个,必须调大
# 调整该参数就能控制同时运行的spark作业数量
# 前提是系统资源充足
# 同时受限于系统大最大端口号65535和该用户可以打开的最大进程数

6. 手动指定spark-shell配置文件:

spark-shell ... --properties-file profile1
# 使用另外的配置文件来顶替spark-defaults.conf
# 即手动指定启动spark-shell时的配置文件
# 如果该参数不加,则自动使用spark-defaults.conf

7. spark-shell显式传参:

spark-shell ... --conf spark.port.maxRetries=1
# 显式的指定参数的配置
# 该方法会顶替掉spark-defaults.conf里的参数配置
# 或是--properties-file参数指定的配置文件中的参数配置

# spark相关的参数都以spark.作为前缀
# spark.a=b 是spark的参数,a=b 则不是
# 当然,如果参数不是spark的参数,则会自动忽略掉
# 通过该方式,我们可以自定义spark参数传入spark-shell会话中

# 全部的spark参数可以参见源码SparkSubmitArguments:
# org.apache.spark.deploy.SparkSubmitArguments
# 参数以spark.作为前缀的定义来源于函数 ignoreNonSparkProperties

[TOC]

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值