spark提交脚本及优化

最新推荐文章于 2022-07-13 14:38:09 发布

暗东方

最新推荐文章于 2022-07-13 14:38:09 发布

阅读量158

点赞数

分类专栏：大数据文章标签： spark优化

本文链接：https://blog.csdn.net/weixin_43956381/article/details/103472860

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

提交命令行

spark2-submit  --master yarn --deploy-mode client --driver-memory 1g --num-executors 2 --executor-cores 2 --executor-memory 2g --class com.songzhixiao.sellcourse.conrtroller.DwdSellCourseController  --queue spark /opt/module/jars/com_songzhixiao_warehouse-1.0-SNAPSHOT-jar-with-dependencies.jar

1.释放缓存与缓存方法

DataFrame

//默认使用MEMORY_AND_DISK
dataFrame.cache()
//释放缓存
dataFrame.unpersist()

RDD

//默认使用MEMORY_ONLY
RDD.cache()
//自定义使用
RDD.persist()
//释放缓存
RDD.unpersist()

Sql

sparkSession.catalog.cacheTable(“tableName”)
sparkSession.catalog.uncacheTable(“tableName”)

2.修改并行度

Spark sql
默认shuffle并行度为200 可对spark.sql.shuffle.partitions参数进行修改

RDD、DataFrame
coalese()和repartition()

3.使用Kryo序列化

//先注册(RDD才需要)
sparkConf.set("spark.seralizer"."org.apache.spark.seralizer.KryoSeralizer")
sparkConf.registerKryoClasses(Array(Class[QueryResult]))
//指定缓存级别
rdd.persist(StorageLevel.MEMORY_ONLY_SER)

4.BroadCast join

广播join小表默认值：10M
```
spark.sql.autoBroadcastJoinThread
```

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

暗东方

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark提交脚本及优化

1.释放缓存与缓存方法DataFrame//默认使用MEMORY_AND_DISKdataFrame.cache()//释放缓存dataFrame.unpersist()RDD//默认使用MEMORY_ONLYRDD.cache()//自定义使用RDD.persist()//释放缓存RDD.unpersist()SqlsparkSession.catalog.cac...
复制链接

扫一扫