1、Spark调优背景
目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。
环境:服务器600+,spark 2.0.2,hadoop 2.6.0
2、调优结果
调优随机选取线上9条SQL,表横轴是调优测试项目,测试在集群空闲情况下进行,后一个的测试都是叠加前面测试参数。从数据可参数经过调优,理想环境下性能可提高50%到300%
#3、 下面为调优分享PPT
####1)一图概览
####2) Spark集群优化——数据本地性
####3)Spark集群优化——存储格式选择
####4)Spark参数优化——计算资源