今天我们主要来说一下spark-submit的时候一些重要的参数的配置,和spark提交的两种模式;
spark提交任务常见的两种模式:
1,local[k]:本地使用k个worker线程运行saprk程序.这种模式适合小批量数据在本地调试代码用.(若使用本地的文件,需要在前面加上:file://)
2,spark on yarn模式:
(1)yarn-client模式: 以client模式连接到yarn集群,该方式driver是在client上运行的;
(2)yarn-cluster模式:以cluster模式连接到yarn集群,该方式driver运行在worker节点上.
(3)对于应用场景来说,Yarn-Cluster适合生产环境,Yarn-Client适合交互和调试。
3,提交任务时的几个重要参数:
executor-cores | 每个executor使用的内核数,默认为1 |
num-executors | 启动executor的数量,默认为2 |