全国职业院校技能大赛-大数据离线数据处理模块-数据抽取

张一西158

已于 2023-12-22 20:03:58 修改

阅读量1k

点赞数 25

文章标签：大数据 spark scala hive

于 2023-12-22 17:29:02 首次发布

本文链接：https://blog.csdn.net/weixin_71868447/article/details/135157581

版权

子任务1：数据抽取

编写Scala代码，使用Spark将MySQL库中表EnvironmentData，ChangeRecord，BaseMachine，MachineData,ProduceRecord全量抽取到Hive的ods库中对应表environmentdata，changerecord，basemachine， machinedata， producerecord中。

抽取MySQL的shtd_industry库中EnvironmentData表的全量数据进入Hive的ods库中表environmentdata，字段排序、类型不变，同时添加静态分区，分区字段为etldate，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。使用hive cli执行show partitions ods.environmentdata命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

import org.apache.spark.SparkConf
import org.apache.spark.sql.functions.{current_date, date_format, date_sub}
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkReadMysqlWriteODS {
  def main(args: Array[String]): Unit = {

    System.setProperty("HADOOP_USER_NAME", "root")

    // 创建sparkSession对象
    val conf = new SparkConf().setMaster("local[*]").setAppName("spark")
    val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

    // 启动动态分区
    spark.conf.set("hive.exec.dynamic.partition.mode", "nonstrict")
    // 关闭日志打印
    spark.sparkContext.setLogLevel("OFF")

    // 连接mysql数据库
    val df = spark.read
      .format("jdbc")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("url", "jdbc:mysql://hadoop102:3306/shtd_industry?characterEncoding=utf8&useSSL=false")
      .option("user", "root")
      .option("password", "123456")
      .option("dbtable", "EnvironmentData")
      .load()

    df.createTempView("ods")
    val dataframe: DataFrame = spark.sql("select * from ods")


    // 添加分区字段
    val frame = df1.withColumn("etldate", date_format(date_sub(current_date(), 1), "yyyyMMdd"))

    // 将添加过分区字段的数据写入到ods库中的environmentdata中
    frame.write
      .mode("overwrite")
      .partitionBy("etldate")
      .saveAsTable("ods.environmentdata")

    // 打印分区字段
    spark.sql("show partitions ods.environmentdata")

    // 关闭spark连接
    spark.close()
  }
}

抽取MySQL的shtd_industry库中ChangeRecord表的全量数据进入Hive的ods库中表changerecord，字段排序、类型不变，同时添加静态分区，分区字段为etldate，类型为String，且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd）。使用hive cli执行show partitions ods.changerecord命令，将结果截图粘贴至客户端桌面【Release\任务B提交结果.docx】中对应的任务序号下；

import org.apache.spark.SparkConf
import org.apache.spark.sql.functions.{current_date, date_format, date_sub}
import org.apache.spark.sql.{DataFrame, SparkSession}

object SparkReadMysqlWriteODS {
  def main(args: Array[String]): Unit = {

    System.setProperty("HADOOP_USER_NAME", "root")

    // 创建sparkSession对象
    val conf = new SparkConf().setMaster("local[*]").setAppName("spark")
    val spark: SparkSession = SparkSession.builder().config(conf).enableHiveSupport().getOrCreate()

    // 启动动态分区
    spark.conf.set("hive.exec.dynamic.partition.mode", "nonstrict")
    // 关闭日志打印
    spark.sparkContext.setLogLevel("OFF")

    // 连接mysql数据库
    val df = spark.read
      .format("jdbc")
      .option("driver", "com.mysql.jdbc.Driver")
      .option("url", "jdbc:mysql://hadoop102:3306/shtd_industry?characterEncoding=utf8&useSSL=false")
      .option("user", "root")
      .option("password", "123456")
      .option("dbtable", "EnvironmentData")
      .load()

    df.createTempView("ods")
    val dataframe: DataFrame = spark.sql("select * from ods")


    // 添加分区字段
    val frame = df1.withColumn("etldate", date_format(date_sub(current_date(), 1), "yyyyMMdd"))

    // 将添加过分区字段的数据写入到ods库中的environmentdata中
    frame.write
      .mode("overwrite")
      .partitionBy("etldate")
      .saveAsTable("ods.environmentdata")

    // 打印分区字段
    spark.sql("show partitions ods.environmentdata2")

    // 关闭spark连接
    spark.close()
  }
}

数据抽取的题目的代码是非常相似的，只要掌握创建spark对象和连接mysql的方法，那么抽取数据到ods层就不是很难了

其他题目只需要修改读取的库和写入的表名就可以了

张一西158

关注

25
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
全国职业院校技能大赛-大数据离线数据处理模块-数据抽取

编写Scala代码，使用Spark将MySQL库中表EnvironmentData，ChangeRecord，BaseMachine，MachineData,ProduceRecord全量抽取到Hive的ods库中对应表environmentdata，changerecord，basemachine， machinedata， producerecord中。数据抽取的题目的代码是非常相似的，只要掌握创建spark对象和连接mysql的方法，那么抽取数据到ods层就不是很难了。
复制链接

扫一扫