Spark SQL之dataframe数据保存

最新推荐文章于 2024-07-23 11:02:21 发布

闻香识代码

最新推荐文章于 2024-07-23 11:02:21 发布

阅读量2.5k

点赞数 2

分类专栏： spark dataframe scala 文章标签： spark apache spark 分布式计算大数据 scala

本文链接：https://blog.csdn.net/xiaohu21/article/details/108930301

版权

本文介绍了Spark SQL中DataFrame数据的保存方法，包括通过JDBC保存至MySQL数据库和保存为parquet、json、csv等文件格式。DataFrame作为结构化的数据集合，提供了便捷的数据查询和分析操作。保存数据不仅限于文件，还可以利用JDBC接口存入各种数据库。

摘要由CSDN通过智能技术生成

Spark SQL之dataframe数据保存

1. 背景

Spark SQL作为处理结构化数据的功能模块，本身支持SQL形式使用功能，内部也做了相对RDD更加高的抽象
DataFrame也是一个抽象数据集合，但对比RDD多了schema数据结构化信息，可以将DataFrame看成是RDD+schema信息

2. dataframe数据保存类型

环境准备

Idea2020
jdk 1.8
scala 2.12.12
maven 3.6.3
pom文件

<!-- 定义了一些常量 -->
    <properties>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <scala.version>2.12.10</scala.version>
        <spark.version>3.0.1</spark.version>
        <hbase.version>2.2.5</hbase.version>
        <hadoop.version>3.2.1</hadoop.version>
        <encoding>UTF-8</encoding>
    </properties>

    <dependencies>
        <!-- 导入scala的依赖 -->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
            <!-- 编译时会引入依赖，打包是不引入依赖 -->
            <!--            <scope>provided</scope>-->
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
            <version>4.5.12</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>${spark.version}</version>
        </dependency>

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>${spark.version}</version>
            <!-- 编译时会引入依赖，打包是不引入依赖 -->
            <!--            <scope>provided</scope>-->
        </dependency>

        <!-- https://mvnrepository.com/artifact/com.alibaba/fastjson -->
        <dependency>
            <groupId>