【Spark实战系列】spark-submit 提交 spark 任务的具体参数配置说明

最新推荐文章于 2024-07-10 08:00:00 发布

JasonLee实时计算

最新推荐文章于 2024-07-10 08:00:00 发布

阅读量1.6w

点赞数 6

分类专栏： Spark 实战系列文章标签： spark spark-submit 参数配置

本文链接：https://blog.csdn.net/xianpanjia4616/article/details/80945660

版权

Spark 实战系列专栏收录该内容

41 篇文章 289 订阅 ¥69.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark提交任务的两种模式：local和Spark on YARN，以及YARN-Client和YARN-Cluster的区别。重点讲解了提交任务时的关键参数，如executor_cores、num_executors、executor_memory和driver-memory，并解释了如何合理设置这些参数以优化性能，减少磁盘IO和JVM GC。同时，文中提到参数配置不当可能影响性能，建议根据实际需求调整。

摘要由CSDN通过智能技术生成

今天我们主要来说一下spark-submit的时候一些重要的参数的配置,和spark提交的两种模式;
spark提交任务常见的两种模式:
1,local[k]:本地使用k个worker线程运行saprk程序.这种模式适合小批量数据在本地调试代码用.(若使用本地的文件,需要在前面加上:file://)
2,spark on yarn模式:
    (1)yarn-client模式: 以client模式连接到yarn集群,该方式driver是在client上运行的;
    (2)yarn-cluster模式:以cluster模式连接到yarn集群,该方式driver运行在worker节点上.
    (3)对于应用场景来说,Yarn-Cluster适合生产环境，Yarn-Client适合交互和调试。
3,提交任务时的几个重要参数: