Spark SQL读入csv文件写入Mysql

最新推荐文章于 2025-05-18 19:22:32 发布

没你很糟糕...

最新推荐文章于 2025-05-18 19:22:32 发布

阅读量400

点赞数 3

文章标签： spark sql mysql

本文链接：https://blog.csdn.net/wzdsajn/article/details/147916131

版权

以下是使用Spark SQL读取CSV文件并将数据写入MySQL的详细步骤：

### 1. 环境准备
- 确保已安装Apache Spark和MySQL。
- 下载并添加MySQL JDBC驱动到Spark的`lib`目录。如果使用Maven项目，可以在`pom.xml`中添加以下依赖：
```xml
<dependency>
<groupId>mysql</groupId>
<artifactId>mysql-connector-java</artifactId>
<version>8.0.26</version>
</dependency>
```
- 确保MySQL数据库已安装并运行。

### 2. 创建SparkSession
创建一个`SparkSession`对象，这是与Spark交互的入口点：
```scala
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder()
.appName("Spark SQL to MySQL")
.master("local[*]") // 使用本地模式
.getOrCreate()
```

### 3. 读取CSV文件
使用`SparkSession.read`方法读取CSV文件并创建DataFrame：
```scala
val csvFilePath = "path/to/your/csvfile.csv" // 替换为你的CSV文件路径
val df = spark.read
.option("header", "true") // 如果CSV文件有表头
.option("inferSchema", "true") // 自动推断数据类型
.csv(csvFilePath)
df.show()
```

### 4. 配置MySQL连接信息
设置连接MySQL的JDBC属性：
```scala
val jdbcUrl = "jdbc:mysql://localhost:3306/your_database" // 替换为你的数据库地址和数据库名
val jdbcProps = new java.util.Properties()
jdbcProps.setProperty("user", "your_username") // 替换为你的数据库用户名
jdbcProps.setProperty("password", "your_password") // 替换为你的数据库密码
jdbcProps.setProperty("driver", "com.mysql.cj.jdbc.Driver")
```

### 5. 将数据写入MySQL
使用`DataFrame.write`方法将数据写入MySQL表：
```scala
val tableName = "your_table" // 替换为你的表名
df.write
.mode("append") // 使用追加模式
.jdbc(jdbcUrl, tableName, jdbcProps)
```

### 6. 关闭SparkSession
完成操作后，关闭SparkSession：
```scala
spark.stop()
```

### 示例代码
以下是一个完整的示例代码，展示了如何将CSV文件中的数据写入MySQL：
```scala
import org.apache.spark.sql.SparkSession

object SparkCSVToMySQL {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName("Spark SQL to MySQL")
.master("local[*]") // 使用本地模式
.getOrCreate()

val csvFilePath = "path/to/your/csvfile.csv" // 替换为你的CSV文件路径
val df = spark.read
.option("header", "true") // 如果CSV文件有表头
.option("inferSchema", "true") // 自动推断数据类型
.csv(csvFilePath)
df.show()

val jdbcUrl = "jdbc:mysql://localhost:3306/your_database" // 替换为你的数据库地址和数据库名
val jdbcProps = new java.util.Properties()
jdbcProps.setProperty("user", "your_username") // 替换为你的数据库用户名
jdbcProps.setProperty("password", "your_password") // 替换为你的数据库密码
jdbcProps.setProperty("driver", "com.mysql.cj.jdbc.Driver")

val tableName = "your_table" // 替换为你的表名
df.write
.mode("append") // 使用追加模式
.jdbc(jdbcUrl, tableName, jdbcProps)

spark.stop()
}
}
```

### 注意事项
- **CSV文件格式**：确保CSV文件的格式正确，例如是否有表头、字段分隔符等。
- **MySQL表结构**：在将数据写入MySQL之前，需要确保目标表已经存在，并且表结构与CSV文件中的数据匹配。
- **数据类型**：如果CSV文件中的数据类型与MySQL表中的数据类型不匹配，可能会导致写入失败。可以通过`option("inferSchema", "true")`让Spark自动推断数据类型，或者手动指定数据类型。
- **性能优化**：对于大数据量的写入操作，可以考虑调整Spark的配置参数，如`spark.sql.shuffle.partitions`，以提高性能。

通过以上步骤，你可以将CSV文件中的数据读取到Spark中，并将其写入MySQL数据库。