spark基于standalone模式提交任务和基于yarn模式提交任务的比较，spark的宽窄依赖，spark的计算模式等（图解+文字说明）

最新推荐文章于 2022-07-18 17:54:55 发布

道法—自然

最新推荐文章于 2022-07-18 17:54:55 发布

阅读量2.2k

点赞数 1

分类专栏：大数据开发面试

本文链接：https://blog.csdn.net/wyqwilliam/article/details/81123227

版权

本文详细对比了Spark在Standalone和Yarn模式下client和cluster两种提交任务的方式，分析了各自的优缺点，并解释了Spark的宽窄依赖概念，以及Stage的组成和计算模式，探讨了提高Stage并行度的方法。

摘要由CSDN通过智能技术生成

   1.Spark基于Standalone提交任务
       1).client
           命令：
               ./spark-submit --master spark://node1:7077 --class ... jar ... 参数
               ./spark-submit --master spark://node1:7077 --deploy-mode client --class .. jar .. 参数
           过程：
               a).在客户端提交Spark应用程序，会在客户端启动Driver。
               b).客户端向Master申请资源，Master找到资源返回。
               c).Driver发送task。
           注意：
               client方式提交任务，在客户端提交多个application，客户端会为每个application都启动一个Driver，Driver与集群Worker节点有大量通信，这样会造成客户端网卡流量激增。client方式提交任务适用于程序测试，不适用于真实生产环境。在客户端可以看到task执行情况和计算结果。

       2).cluster
           命令：
               ./spark-submit --master spark://node1:7077 --deploy-mode cluster --cla