spark job server原理

本文详细介绍了Spark Job Server的配置,包括settings.sh和local.conf的设置,以及启动脚本的使用。内容涵盖环境变量、Spark相关配置、YARN和Hadoop的配置,以及初始化context和提交job的步骤。此外,还讨论了问题记录,如context上的job未结束时删除context的问题。最后,提到了图形化展示job状态的方法。
摘要由CSDN通过智能技术生成
配置相关
  • settings.sh
    • 功能:配置环境变量
    • APP_USER/APP_GROUP:作业提交用户和组
    • JMX_PORT:java jmx端口,通常在aws或者其他容器里打开
    • INSTALL_DIR:sjs所做目录
    • LOG_DIR:日志路径
    • PIDFILE:启动sjs,产生pid存放的文件名
    • JOBSERVER_MEMORY:启动spark作业的driverMem
    • SPARK_VERSION:指定spark版本
    • SCALA_VERSION:scala版本
    • SPARK_HOME、SPARK_LOG_DIR、SPARK_CONF_DIR:spark相关配置
    • YARN_CONF_DIR、HADOOP_CONF_DIR:yarn配置
  • local.conf
    • spark.master:指定spark提交的类型,yarn-client、local[4]等
    • spark.jobserver
      • port:指定jobServer的启动端口,使用此端口进行作业提交和监控等
      • context-per-jvm:是否每个context都启动一个独立的进程
      • jobdao:指定处理jobs、jars等逻辑的类
      • datadao:通过POST/data上传到sjs的文件存放路径
      • sqldao:当jobdao指定为JobSqlDAO时使用
        • slick-driver
        • jdbc-driver
        • rootdir:H2 driver存放数据目录
        • jdbc:连接
        • dbcp:连接池
      • result-chunk-size
        • 作业返回值使用分块传输,每块大小
    • spark.contexts:启动sjs自动加载的context配置
      • 名字
    • context-settings:启动context,即app,相关配置
      • num-cpu-cores:core个数
      • memory-per-node:executor的mem,eg 512m、1G
      • dependent-jar-uris:依赖的jar包,list形式,或者字符串,使用逗号隔开
        • [“file:///xxx.jar”,”file:///xxx2.jar”],或者”file:///xxx.jar,file:///xxx2.jar”
      • 其他的spark配置,去掉前缀spark即可
        • 如:spark.speculation可配置为speculation
  • server_start.sh
    • 启动spark job server
  • manager_start.sh
    • context-per-jvm设置为true时,才会使用此脚本,用于启动context
使用
  • 启动
    • 运行脚本server_start.sh即可
  • 初始化context
    • curl -d "" 'ip:port/contexts/roncen_test_context?context-factory=spark.jobserver.context.HiveContextFactory'
  • 上传jar包
    <
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值