spark sql 数据倾斜优化

最新推荐文章于 2024-01-09 17:27:49 发布

yisun123456

最新推荐文章于 2024-01-09 17:27:49 发布

阅读量3.3k

点赞数 3

分类专栏： spark

spark 专栏收录该内容

52 篇文章 3 订阅

订阅专栏

场景一：

大表join小表：把小表broadcast，和cache 到内存，并且大表加了distribute by rand()

然后在spark-submit中加一个conf：spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小，单位为字节，只要表大小小于此取值（此处约为200m），且被执行过cache table的小表，在做join时，都会启用hash join。
---------------------

场景二：groupBy,orderby,只能调整业务，或者改成rdd，目前在sparkSQL层面除了用udf，其他还没有什么解决办法，转成RDD是一种选择

代码如下

import java.util.Random

import org.apache.spark.sql.SparkSession

object TestUDF {
  def main(args: Array[String]): Unit = {
    val spark =
      SparkSession.builder()
        .appName("TestUDF")
        .enableHiveSupport()
        .getOrCreate()

spark.udf.register("random_prefix", (value: Int, num: Int) => randomPrefixUDF(value, num))
spark.udf.register("remove_random_prefix", (value: String) => removeRandomPrefixUDF(value))

    //    spark.sql(sql1).show()
    //    spark.sql(sql2).show()
    //    spark.sql(sql3).show()
    spark.sql(sql4).show()
  }

  def randomPrefixUDF(value: Int, num: Int): String = {
    new Random().nextInt(num).toString + "_" + value
  }

  def removeRandomPrefixUDF(value: String): String = {
    value.toString.split("_")(1)
  }
}

yisun123456

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
spark sql 数据倾斜优化

场景一：大表join小表：把小表broadcast，和cache 到内存，并且大表加了distribute by rand()然后在spark-submit中加一个conf：spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小，单位为字节，只要表大小小于此取值（此处约为200m），且被执行过cache table的小表，在做jo...
复制链接

扫一扫

专栏目录