![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 69
YQlakers
这个作者很懒,什么都没留下…
展开
-
Spark并行度调优方法
spark并行度调优提供了两种方法: 方法一:在数据混洗操作的时候,用参数设置的方式为混洗后的RDD指定并行度。 方法二:对于任何已有的RDD,可以进行重新分区来获取更多或者更少的分区数。重新分区操作可以通过repartition()这个函数实现,这个函数可以将RDD随机打乱并分为设定的分区数目。如果是要减少RDD分区数目的话,可以使用coalesce()操作。由于这个函数没有打乱数据,所以该原创 2017-03-31 10:04:20 · 2006 阅读 · 0 评论 -
SparkSQL性能调优
最近在学习spark时,觉得Spark SQL性能调优比较重要,所以自己写下来便于更过的博友查看,同时也希望大家给我指出我的问题和不足 在spark中,Spark SQL性能调优只要是通过下面的一些选项进行优化的: 1 spark.sql.codegen 默认值为false,当它设置为true时,Spark SQL会把每条查询的语句在运行时编译为java的二进制代码。这有什么作用呢?它可以提高原创 2017-03-31 14:54:48 · 9113 阅读 · 0 评论