spark job server原理

最新推荐文章于 2022-03-18 17:54:30 发布

zhaorongsheng

最新推荐文章于 2022-03-18 17:54:30 发布

阅读量2.2k

点赞数

分类专栏： spark相关文章标签： spark jobserver

本文链接：https://blog.csdn.net/zhaorongsheng/article/details/72903358

版权

本文详细介绍了Spark Job Server的配置，包括settings.sh和local.conf的设置，以及启动脚本的使用。内容涵盖环境变量、Spark相关配置、YARN和Hadoop的配置，以及初始化context和提交job的步骤。此外，还讨论了问题记录，如context上的job未结束时删除context的问题。最后，提到了图形化展示job状态的方法。

摘要由CSDN通过智能技术生成

                    
                        
                    
                    配置相关 
settings.sh 
 
  功能：配置环境变量
APP_USER/APP_GROUP：作业提交用户和组
JMX_PORT：java jmx端口，通常在aws或者其他容器里打开
INSTALL_DIR：sjs所做目录
LOG_DIR：日志路径
PIDFILE：启动sjs，产生pid存放的文件名
JOBSERVER_MEMORY：启动spark作业的driverMem
SPARK_VERSION：指定spark版本
SCALA_VERSION：scala版本
SPARK_HOME、SPARK_LOG_DIR、SPARK_CONF_DIR：spark相关配置
YARN_CONF_DIR、HADOOP_CONF_DIR：yarn配置
local.conf 
 
  spark.master：指定spark提交的类型，yarn-client、local[4]等
spark.jobserver 
 
    port：指定jobServer的启动端口，使用此端口进行作业提交和监控等
context-per-jvm：是否每个context都启动一个独立的进程
jobdao：指定处理jobs、jars等逻辑的类
datadao：通过POST/data上传到sjs的文件存放路径
sqldao：当jobdao指定为JobSqlDAO时使用 
 
      slick-driver
jdbc-driver
rootdir：H2 driver存放数据目录
jdbc：连接
dbcp：连接池
result-chunk-size 
 
      作业返回值使用分块传输，每块大小
spark.contexts：启动sjs自动加载的context配置 
 
    名字
context-settings：启动context，即app，相关配置 
 
    num-cpu-cores：core个数
memory-per-node：executor的mem，eg 512m、1G
dependent-jar-uris：依赖的jar包，list形式，或者字符串，使用逗号隔开 
 
      [“file:///xxx.jar”,”file:///xxx2.jar”]，或者”file:///xxx.jar,file:///xxx2.jar”
其他的spark配置，去掉前缀spark即可 
 
      如：spark.speculation可配置为speculation
server_start.sh 
 
  启动spark job server
manager_start.sh 
 
  context-per-jvm设置为true时，才会使用此脚本，用于启动context
 
使用 
启动 
 
  运行脚本server_start.sh即可
初始化context 
 
  curl -d "" 'ip:port/contexts/roncen_test_context?context-factory=spark.jobserver.context.HiveContextFactory'
上传jar包 
 <

                

最低0.47元/天解锁文章

zhaorongsheng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark job server原理

spark job server原理配置相关settings.sh 功能：配置环境变量APP_USER/APP_GROUP：作业提交用户和组JMX_PORT：java jmx端口，通常在aws或者其他容器里打开INSTALL_DIR：sjs所做目录LOG_DIR：日志路径PIDFILE：启动sjs，产生pid存放的文件名JOBSERVER_MEMORY：启动spark作业的drive
复制链接

扫一扫

专栏目录