spark操作hive工具类

最新推荐文章于 2022-02-23 10:33:18 发布

暗东方

最新推荐文章于 2022-02-23 10:33:18 发布

阅读量232

点赞数

分类专栏：大数据文章标签： spark hive

本文链接：https://blog.csdn.net/weixin_43956381/article/details/103753680

版权

大数据专栏收录该内容

18 篇文章 0 订阅

订阅专栏

import org.apache.spark.sql.SparkSession

object HiveUtil {

    /**
      * 调大最大分区个数
      *
      * @param spark SparkSession
      * @return
      */
    def setMaxpartitions(spark: SparkSession): Unit = {
        spark.sql("set hive.exec.dynamic.partition=true")
        spark.sql("set hive.exec.dynamic.partition.mode=nonstrict")
        spark.sql("set hive.exec.max.dynamic.partitions=100000")
        spark.sql("set hive.exec.max.dynamic.partitions.pernode=100000")
        spark.sql("set hive.exec.max.created.files=100000")
    }

    /**
      * 开启压缩
      *
      * @param spark SparkSession
      * @return
      */
    def openCompression(spark: SparkSession): Unit = {
        spark.sql("set mapred.output.compress=true")
        spark.sql("set hive.exec.compress.output=true")
    }

    /**
      * 开启动态分区，非严格模式
      *
      * @param spark SparkSession
      */
    def openDynamicPartition(spark: SparkSession): Unit = {
        spark.sql("set hive.exec.dynamic.partition=true")
        spark.sql("set hive.exec.dynamic.partition.mode=nonstrict")
    }

    /**
      * 使用lzo压缩
      *
      * @param spark SparkSession
      */
    def useLzoCompression(spark: SparkSession): Unit = {
        spark.sql("set io.compression.codec.lzo.class=com.hadoop.compression.lzo.LzoCodec")
        spark.sql("set mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec")
    }

    /**
      * 使用snappy压缩
      *
      * @param spark SparkSession
      */
    def useSnappyCompression(spark: SparkSession): Unit = {
        spark.sql("set mapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.SnappyCodec")
        spark.sql("set mapreduce.output.fileoutputformat.compress=true")
        spark.sql("set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec")
    }

}

暗东方

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark操作hive工具类

import org.apache.spark.sql.SparkSessionobject HiveUtil { /** * 调大最大分区个数 * * @param spark SparkSession * @return */ def setMaxpartitions(spark: SparkSession): ...
复制链接

扫一扫

专栏目录