Spark 写数据到 hive 分区表

最新推荐文章于 2023-02-01 18:35:16 发布

Lynn Gin

最新推荐文章于 2023-02-01 18:35:16 发布

阅读量967

点赞数

分类专栏： Hive Spark 文章标签：分区表 hive spark 大数据 sql

本文链接：https://blog.csdn.net/weixin_46376562/article/details/119542275

版权

Spark 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

Hive

9 篇文章 0 订阅

订阅专栏

思路

RDD => Dataset => create partition table => create temp table ( Dataset ) =>insert

代码奉上

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{Dataset, SaveMode, SparkSession}


object Test01 {
  def main(args: Array[String]): Unit = {
  
    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkSqlOnHive")
    val sparkSession = SparkSession
      .builder()
      .config(conf)
      .config("spark.sql.warehouse.dir", "hdfs://192.168.200.105:9000/user/hive/warehouse")
      .enableHiveSupport()
      .getOrCreate()
    import sparkSession.implicits._

    val dataRDD: RDD[(Int, String)] = sparkSession.sparkContext.makeRDD(List((1, "张三"), (2, "李四")))
    val studentDS: Dataset[student] = dataRDD.map {
      case (id, name) => student(id, name)
    }.toDS()
    studentDS.createOrReplaceTempView("student2021")

	sparkSession.sql("create database SkillsCompetitions")
    
    sparkSession.sql("use SkillsCompetitions")

    sparkSession.sql(
      """
        |create table student (id int, name string)
        |partitioned by (year string)
        |row format delimited fields terminated by "\t"
        |""".stripMargin)

    sparkSession.sql(
      """
        |insert into table student partition (year="2021")
        |select id, name from student2021
        |""".stripMargin)

    sparkSession.close()
  }
  case class student (id: Int, name: String)

}

Lynn Gin

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark 写数据到 hive 分区表

思路RDD => Dataset => create partition table => create temp table ( Dataset ) =>insert代码奉上import org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{Dataset, SaveMode, SparkSession}object Test01 { def m
复制链接

扫一扫

专栏目录