SparkSQL并行度参数设置方法

最新推荐文章于 2024-06-15 17:07:25 发布

段渣渣

最新推荐文章于 2024-06-15 17:07:25 发布

阅读量1.1w

点赞数 4

分类专栏： SparkSQL Spark学习文章标签： SparkSQL 并行度

本文链接：https://blog.csdn.net/xiaoduan_/article/details/79809262

版权

Spark学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

SparkSQL

9 篇文章 0 订阅

订阅专栏

版权声明：未经允许，随意转载，请附上本文链接谢谢（づ￣3￣）づ╭❤～
https://blog.csdn.net/xiaoduan_/article/details/79809262

SparkSQL并行度参数设置方法

SparkSQL并行度是SparkSQL的第一个调优点，默认的并行度是200，需要根据实际情况进行设置，它有有两种设置方法，
1. 在代码中直接设定

val spark = SparkSession.builder()
      .config("spark.sql.shuffle.partitions",100)//设置并行度100
      .getOrCreate()

在提交的时候提供参数修改，注意代码中的优先级高于提交时的优先级
这里是一个例子

./bin/spark-submit \
--class com.imooc.log.TopNStatJobYARN \
--name TopNStatJobYARN \
--master yarn \
--executor-memory 1G \
--num-executors 1 \
--conf spark.sql.shuffle.partitions=100 \
/home/hadoop/lib/sql-1.0-jar-with-dependencies.jar \
hdfs://hadoop001:8020/imooc/clean 20170511

段渣渣

关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL并行度参数设置方法

版权声明：未经允许，随意转载，请附上本文链接谢谢（づ￣3￣）づ╭❤～ https://blog.csdn.net/xiaoduan_/article/details/79809262SparkSQL并行度参数设置方法SparkSQL并行度是SparkSQL的第一个调优点，默认的并行度是200，需要根据实际情况进行设置，它有有两种设置方法， 1. 在代码中直接设定val spa...
复制链接

扫一扫

专栏目录