spark 过程分析

1 日志 https://blog.csdn.net/zhufenglonglove/article/details/51604795

2  读数据库 https://www.jianshu.com/p/83d273dfea1c

3 运维实战gitbook :

https://taoistwar.gitbooks.io/spark-operationand-maintenance-management/content/spark_core/context.html

4 https://coyee.com/article/11012-how-apache-spark-makes-your-slow-mysql-queries-10x-faster-or-more 查询优化

5 update 改写

6 spark web    https://blog.csdn.net/dufufd/article/details/72722075

Master URL意义
local本地以一个worker线程运行(例如非并行的情况).
local[K]本地以K worker 线程 (理想情况下, K设置为你机器的CPU核数).
local[*]本地以本机同样核数的线程运行.
spark://HOST:PORT连接到指定的Spark standalone cluster master. 端口是你的master集群配置的端口,缺省值为7077.
mesos://HOST:PORT连接到指定的Mesos 集群. Port是你配置的mesos端口, 缺省是5050. 或者如果Mesos使用ZOoKeeper,格式为 mesos://zk://....
yarn-client以client模式连接到YARN cluster. 集群的位置基于HADOOP_CONF_DIR 变量找到.
yarn-cluster以cluster模式连接到YARN cluster. 集群的位置基于HADOOP_CONF_DIR 变量找到.

1.spark作业配置的三种方式

  1. 读取指定配置文件,默认为conf/spark-defaults.conf。
  2. 在程序中的SparkConf中指定,如conf.setAppName(“myspark”)。
  3. spark-submit中使用参数。
    这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-submit中使用–verbos参数查看起作用的配置来自上述哪种方式。

2.spark-submit参数说明

使用spark-submit提交spark作业的时候有许多参数可供我们选择,这些参数有的用于作业优化,有的用于实现某些功能,所有的参数列举如下:

参数说明
–master集群的master地址。如:spark://host:port,mesos://host:port,
yarn-client,yarn-cluster,local[k]本地以k个worker线程执行,
k一般为cpu的内核数,local[*]以尽可能多的线程数执行。
–deploy-modedriver运行的模式,client或者cluster模式,默认为client
–class应用程序的主类(用于Java或者Scala应用)
–name应用程序的名称
–jars作业执行过程中使用到的其他jar,可以使用逗号分隔添加多个。可以使用如下方式添加:
file:指定http文件服务器的地址,每个executor都从这个地址下载。
hdfs,http,https,ftp:从以上协议指定的路径下载。
local:直接从当前的worker节点下载。
–packages从maven添加作业执行过程中使用到的包,查找顺序先本地仓库再远程仓库。
可以添加多个,每个的格式为:groupId:artifactId:version
–exclude-packages需要排除的包,可以为多个,使用逗号分隔。
–repositories远程仓库。可以添加多个,逗号分隔。
–py-files逗号分隔的”.zip”,”.egg”或者“.py”文件,这些文件放在python app的PYTHONPATH下面
–files逗号分隔的文件列表,这些文件放在每个executor的工作目录下。
–conf其他额外的spark配置属性。
–properties-file指向一个配置文件,通过这个文件可以加载额外的配置。
如果没有则会查找conf/spark-defaults.conf
–driver-memorydriver节点的内存大小。如2G,默认为1024M。
–driver-java-options作用于driver的额外java配置项。
–driver-library-path作用于driver的外部lib包。
–driver-class-path作用于driver的额外类路径,使用–jar时会自动添加路径。
–executor-memory每个excutor的执行内存。
–proxy-user提交作业的模拟用户。是hadoop中的一种安全机制,具体可以参考:
http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/
–verbose打印debug信息。
–version打印当前spark的版本。
–driver-coresdriver的内核数,默认为1。(仅用于spark standalone集群中)
–superivsedriver失败时重启 (仅用于spark standalone或者mesos集群中)
–killkill指定的driver (仅用于spark standalone或者mesos集群中)
–total-executor-cores给所有executor的所有内核数。(仅用于spark standalone或者mesos集群中)
–executor-cores分配给每个executor的内核数。(仅用于spark standalone或者yarn集群中)
–driver-coresdriver的内核数。(仅yarn)
–queue作业执行的队列。(仅yarn)
–num-executorexecutor的数量。(仅yarn)
–archives需要添加到executor执行目录下的归档文件列表,逗号分隔。(仅yarn)
— principal运行于secure hdfs时用于登录到KDC的principal。(仅yarn)
–keytab包含keytab文件的全路径。(仅yarn)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值