Spark调优学习记录
文章平均质量分 51
Spark调优学习记录
Ale_77
这个作者很懒,什么都没留下…
展开
-
Spark调优学习记录(十五)故障排查
shuffle reader的读取缓冲48M,内存不大时,不宜调整太大。原创 2024-04-15 17:20:09 · 255 阅读 · 1 评论 -
Spark调优学习记录(十四)AQE
尽可能更多地申请资源,所以当资源不太多时,适当减小executorAllocationRatio,控制申请maxExecutors。当合并和倾斜同时使用时,会先合并,再调整倾斜。原创 2024-04-15 16:58:06 · 459 阅读 · 1 评论 -
Spark调优学习记录(十三)Job优化
prcess_local 进程本地化node_local 节点本地化rack_local 机架本地化any 非本地化。原创 2024-04-15 14:01:23 · 328 阅读 · 1 评论 -
Spark调优学习记录(十二)Reduce端优化
并发度的2~3倍。原创 2024-04-15 13:02:24 · 175 阅读 · 1 评论 -
Spark调优学习记录(十一)Map端调大ShuffleWrite溢写时输出流缓冲
文件输出流缓冲区大小(游泳池放水的水管子流速)开始写,要攒够条数,才能flush一次磁盘。原创 2024-04-15 08:53:43 · 145 阅读 · 1 评论 -
Spark调优学习记录(九)数据倾斜
有的跑的慢的task,跑着跑着就oom啦。原创 2024-04-14 17:14:48 · 383 阅读 · 1 评论 -
Spark调优学习记录(八)语法优化之SMB Join
应对大表join大表。原创 2024-04-14 14:23:26 · 301 阅读 · 1 评论 -
Spark调优学习记录(七)语法优化之广播Join
Spark join中,如果小表足够小,可以先缓存到内存,使用Broadcast Hash join。原理是将小表聚合到driver端,再广播到各大表分区,进行join时,大表的各个分区与小表进行本地join,规避shuffle。原创 2024-04-14 13:37:34 · 325 阅读 · 1 评论 -
Spark调优学习记录(六)语法优化之CBO
物理计划层面,计算所有可能的物理计划的代价(考虑数据的特点:大小、分布等,考虑操作算子的特点:中间结果集的分布和大小等),选择代价小的物理执行计划。原创 2024-04-14 12:23:47 · 264 阅读 · 1 评论 -
Spark调优学习记录(五)语法优化之RBO
在逻辑计划之后做的,Catalyst优化器,共81条优化规则,分为27组,三大类。原创 2024-04-14 11:19:12 · 349 阅读 · 1 评论 -
Spark调优学习记录(四)CPU优化
设置RDD的默认并发度,没有设置时,由join、reduceByKey和parallelize等决定。原创 2024-04-13 21:08:48 · 343 阅读 · 0 评论 -
Spark调优学习记录(三)持久化和序列化
对于sql来说,是否序列化结果差不多。原创 2024-04-13 20:38:31 · 216 阅读 · 0 评论 -
Spark调优学习记录(二)资源规划
每个executor最大核数,3~6之间。原创 2024-04-13 20:12:02 · 234 阅读 · 0 评论 -
Spark调优学习记录(一)Explain
explain(mode="extended"):展示逻辑和物理执行计划。原创 2024-04-13 19:34:03 · 229 阅读 · 0 评论