Spark性能调优1-测试记录

最新推荐文章于 2022-07-22 15:22:05 发布

VIP文章 xwc35047

最新推荐文章于 2022-07-22 15:22:05 发布

阅读量4.9k

点赞数 2

分类专栏： spark经验总结 zeppelin 性能调优文章标签： spark zeppelin sql

本文链接：https://blog.csdn.net/xwc35047/article/details/71038581

版权

1、调优背景

Spark作为Zeppelin的SQL底层执行引擎，通过Thriftserver处理jdbc连接，为提高硬件资源利用率、IO带宽和内存利用率，特针对性的进行Spark性能调优，目的是提高多租户环境下Spark SQL执行效率。

2、整体调优结果

表2-1 整体调优结果

调优随机选取线上9条SQL，表横轴是调优测试项目，测试在集群空闲情况下进行，后一个的测试都是叠加前面测试参数。从数据可参数经过调优，理想环境下性能相对Spark默认参数可提高50%到300%。

表2-2 调优项目说明

测试项目	说明
MR	使用Hive测试
sp-1	默认spark参数测试
sp-2	spark.sql.shuffle.partitions参数
sp-3	executor与core参数比例
sp-4	spark.shuffle.*参数
sp-5	spark.sql.files.openCostInBytes参数

主要调优参数就是这几个，实际调优参数不止这几个，下文将说明。此外因为Spark现在默认开启tungsten，所以省略tungsten调参。

3、单个参数调优记录

1）并行度测试记录

表3-1 并行度调优结果

从调优结果和参考其他公

关注