spark 过程分析

最新推荐文章于 2023-03-29 11:29:15 发布

yanyanho

最新推荐文章于 2023-03-29 11:29:15 发布

阅读量200

点赞数

本文链接：https://blog.csdn.net/yanyanho/article/details/80407883

版权

1 日志 https://blog.csdn.net/zhufenglonglove/article/details/51604795

2 读数据库 https://www.jianshu.com/p/83d273dfea1c

3 运维实战gitbook :

https://taoistwar.gitbooks.io/spark-operationand-maintenance-management/content/spark_core/context.html

4 https://coyee.com/article/11012-how-apache-spark-makes-your-slow-mysql-queries-10x-faster-or-more 查询优化

5 update 改写

6 spark web https://blog.csdn.net/dufufd/article/details/72722075

Master URL	意义
local	本地以一个worker线程运行(例如非并行的情况).
local[K]	本地以K worker 线程 (理想情况下, K设置为你机器的CPU核数).
local[*]	本地以本机同样核数的线程运行.
spark://HOST:PORT	连接到指定的Spark standalone cluster master. 端口是你的master集群配置的端口，缺省值为7077.
mesos://HOST:PORT	连接到指定的Mesos 集群. Port是你配置的mesos端口，缺省是5050. 或者如果Mesos使用ZOoKeeper,格式为 mesos://zk://....
yarn-client	以client模式连接到YARN cluster. 集群的位置基于HADOOP_CONF_DIR 变量找到.
yarn-cluster	以cluster模式连接到YARN cluster. 集群的位置基于HADOOP_CONF_DIR 变量找到.

1.spark作业配置的三种方式

读取指定配置文件，默认为conf/spark-defaults.conf。
在程序中的SparkConf中指定，如conf.setAppName(“myspark”)。
spark-submit中使用参数。
这三种方式的优先级为SparkConf>spark-submit>配置文件。可以在spark-submit中使用–verbos参数查看起作用的配置来自上述哪种方式。

2.spark-submit参数说明

使用spark-submit提交spark作业的时候有许多参数可供我们选择，这些参数有的用于作业优化，有的用于实现某些功能，所有的参数列举如下：

参数	说明
–master	集群的master地址。如：spark://host:port，mesos://host:port， yarn-client，yarn-cluster，local[k]本地以k个worker线程执行， k一般为cpu的内核数，local[*]以尽可能多的线程数执行。
–deploy-mode	driver运行的模式，client或者cluster模式，默认为client
–class	应用程序的主类（用于Java或者Scala应用）
–name	应用程序的名称
–jars	作业执行过程中使用到的其他jar，可以使用逗号分隔添加多个。可以使用如下方式添加： file：指定http文件服务器的地址，每个executor都从这个地址下载。 hdfs,http,https,ftp:从以上协议指定的路径下载。 local:直接从当前的worker节点下载。
–packages	从maven添加作业执行过程中使用到的包，查找顺序先本地仓库再远程仓库。可以添加多个，每个的格式为：groupId:artifactId:version
–exclude-packages	需要排除的包，可以为多个，使用逗号分隔。
–repositories	远程仓库。可以添加多个，逗号分隔。
–py-files	逗号分隔的”.zip”,”.egg”或者“.py”文件，这些文件放在python app的PYTHONPATH下面
–files	逗号分隔的文件列表，这些文件放在每个executor的工作目录下。
–conf	其他额外的spark配置属性。
–properties-file	指向一个配置文件，通过这个文件可以加载额外的配置。如果没有则会查找conf/spark-defaults.conf
–driver-memory	driver节点的内存大小。如2G，默认为1024M。
–driver-java-options	作用于driver的额外java配置项。
–driver-library-path	作用于driver的外部lib包。
–driver-class-path	作用于driver的额外类路径，使用–jar时会自动添加路径。
–executor-memory	每个excutor的执行内存。
–proxy-user	提交作业的模拟用户。是hadoop中的一种安全机制，具体可以参考: http://dongxicheng.org/mapreduce-nextgen/hadoop-secure-impersonation/
–verbose	打印debug信息。
–version	打印当前spark的版本。
–driver-cores	driver的内核数，默认为1。（仅用于spark standalone集群中）
–superivse	driver失败时重启（仅用于spark standalone或者mesos集群中）
–kill	kill指定的driver （仅用于spark standalone或者mesos集群中）
–total-executor-cores	给所有executor的所有内核数。（仅用于spark standalone或者mesos集群中）
–executor-cores	分配给每个executor的内核数。（仅用于spark standalone或者yarn集群中）
–driver-cores	driver的内核数。（仅yarn）
–queue	作业执行的队列。（仅yarn）
–num-executor	executor的数量。（仅yarn）
–archives	需要添加到executor执行目录下的归档文件列表，逗号分隔。（仅yarn）
— principal	运行于secure hdfs时用于登录到KDC的principal。（仅yarn）
–keytab	包含keytab文件的全路径。（仅yarn）

yanyanho

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark 过程分析

1 日志 https://blog.csdn.net/zhufenglonglove/article/details/516047952 读数据库 https://www.jianshu.com/p/83d273dfea1c3 运维实战gitbook :https://taoistwar.gitbooks.io/spark-operationand-maintenance-management/...
复制链接

扫一扫