PySpark 入门:通过JDBC连接数据库(DataFrame)

这里以关系数据库MySQL为例。首先,本博客教程(Ubuntu 20.04 安装MySQL 8.X),在Linux系统中安装好MySQL数据库。这里假设你已经成功安装了MySQL数据库。下面我们要新建一个测试Spark程序的数据库,数据库名称是“spark”,表的名称是“student”

请执行下面命令在Linux中启动MySQL数据库,并完成数据库和表的创建,以及样例数据的录入:

service mysql start
mysql -u root -p
# 屏幕会提示你输入密码

输入密码后,你就可以进入“mysql>”命令提示符状态,然后就可以输入下面的SQL语句完成数据库和表的创建:

mysql> create database spark;
mysql> use spark;
mysql> create table student (id int(4), name char(20), gender char(4), age int(4));
mysql> alter table student change id id int auto_increment primary key;
mysql> insert into student values(1,'Xueqian','F',23);
mysql> insert into student values(2,'Weiliang','M',24);
mysql> select * from student;

上面已经创建好了我们所需要的MySQL数据库和表,下面我们编写Spark应用程序连接MySQL数据库并且读写数据。

Spark支持通过JDBC方式连接到其他数据库获取数据生成DataFrame。

首先,请进入Linux系统(本教程统一使用hadoop用户名登录),打开火狐(FireFox)浏览器,下载一个MySQL的JDBC驱动(下载)。

JDBC 驱动下载方法一:

image-20220329220931504

解压,把 mysql-connector-java-8.0.28.jar 粘贴到 /usr/local/spark/jars 中,这样便完成了驱动的导入

JDBC 驱动下载方法二:

在火狐浏览器中下载时,一般默认保存在hadoop用户的当前工作目录的“下载”目录下,所以,可以打开一个终端界面,输入下面命令查看:

cd ~
cd Downloads

就可以看到刚才下载到的MySQL的JDBC驱动程序,文件名称为 mysql-connector-java-8.0.28.tar.gz(你下载的版本可能和这个不同)。现在,使用下面命令,把该驱动程序拷贝到 Spark 的安装目录下:

sudo tar -zxf ~/Downloads/mysql-connector-java-8.0.28.tar.gz -C /usr/local/spark/jars
cd /usr/local/spark/jars
ls

这时就可以在/usr/local/spark/jars目录下看到这个驱动程序文件所在的文件夹 mysql-connector-java-8.0.28,进入这个文件夹,就可以看到驱动程序文件 mysql-connector-java-8.0.28.jar。
请输入下面命令启动已经安装在Linux系统中的mysql数据库(如果前面已经启动了MySQL数据库,这里就不用重复启动了)。

service mysql start

下面,我们要启动一个pyspark,而且启动的时候,要附加一些参数。启动pyspark时,必须指定mysql连接驱动jar包。

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令行中,在一行的末尾加入斜杠\,是为了告诉spark-shell,命令还没有结束。

启动进入pyspark以后,可以执行以下命令连接数据库,读取数据,并显示:

jdbcDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306/spark").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable", "student").option("user", "root").option("password", "password").load()

下面我们再来看一下如何往MySQL中写入数据。
为了看到MySQL数据库在Spark程序执行前后发生的变化,我们先在Linux系统中新建一个终端,使用下面命令查看一下MySQL数据库中的数据库spark中的表student的内容:

mysql>  use spark;
Database changed
 
mysql> select * from student;
//上面命令执行后返回下面结果
+------+----------+--------+------+
| id   | name     | gender | age  |
+------+----------+--------+------+
|    1 | Xueqian  | F      |   23 |
|    2 | Weiliang | M      |   24 |
+------+----------+--------+------+

现在我们开始在pyspark中编写程序,往spark.student表中插入两条记录。
下面,我们要启动一个pyspark,而且启动的时候,要附加一些参数。启动pyspark时,必须指定mysql连接驱动jar包(如果你前面已经采用下面方式启动了pyspark,就不需要重复启动了):

cd /usr/local/spark
./bin/pyspark \
--jars /usr/local/spark/jars/mysql-connector-java-8.0.28.jar

上面的命令行中,在一行的末尾加入斜杠\,是为了告诉spark-shell,命令还没有结束。

启动进入pyspark以后,可以执行以下命令连接数据库,写入数据,程序如下(你可以把下面程序一条条拷贝到pyspark中执行)

>>> from pyspark.sql.types import Row
>>> from pyspark.sql.types import StructType
>>> from pyspark.sql.types import StructField
>>> from pyspark.sql.types import StringType
>>> from pyspark.sql.types import IntegerType
>>> studentRDD = spark.sparkContext.parallelize(["3 Rongcheng M 26","4 Guanhua M 27"]).map(lambda line : line.split(" "))
//下面要设置模式信息
>>> schema = StructType([StructField("name", StringType(), True),StructField("gender", StringType(), True),StructField("age",IntegerType(), True)])
>>> rowRDD = studentRDD.map(lambda p : Row(p[1].strip(), p[2].strip(),int(p[3])))
//建立起Row对象和模式之间的对应关系,也就是把数据和模式对应起来
>>> studentDF = spark.createDataFrame(rowRDD, schema)
>>> prop = {}
>>> prop['user'] = 'root'
>>> prop['password'] = 'password'
>>> prop['driver'] = "com.mysql.cj.jdbc.Driver"
>>> studentDF.write.jdbc("jdbc:mysql://localhost:3306/spark",'student','append', prop)

在pyspark中执行完上述程序后,我们可以看一下效果,看看MySQL数据库中的spark.student表发生了什么变化。请在刚才的另外一个窗口的MySQL命令提示符下面继续输入下面命令:

mysql> select * from student;
+------+-----------+--------+------+
| id   | name      | gender | age  |
+------+-----------+--------+------+
|    1 | Xueqian   | F      |   23 |
|    2 | Weiliang  | M      |   24 |
|    3 | Rongcheng | M      |   26 |
|    4 | Guanhua   | M      |   27 |
+------+-----------+--------+------+
4 rows in set (0.00 sec)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark可以通过JDBC方法连接数据库。具体步骤如下: 1. 导入JDBC驱动程序,例如MySQL的驱动程序。 2. 创建一个SparkSession对象。 3. 使用SparkSession对象的read方法读取数据库中的数据,可以使用JDBC连接字符串指定数据库的URL、用户名和密码。 4. 将读取的数据转换为DataFrame对象,可以使用SparkSession对象的createDataFrame方法。 5. 对DataFrame对象进行操作,例如过滤、聚合等。 6. 使用SparkSession对象的write方法将结果写入数据库中。 示例代码如下: ```python from pyspark.sql import SparkSession # 导入MySQL的JDBC驱动程序 spark = SparkSession.builder.appName("JDBCExample").config("spark.driver.extraClassPath", "/path/to/mysql-connector-java.jar").getOrCreate() # 读取MySQL中的数据 url = "jdbc:mysql://localhost:3306/test" table = "mytable" user = "root" password = "password" df = spark.read.format("jdbc").option("url", url).option("dbtable", table).option("user", user).option("password", password).load() # 对数据进行操作 df_filtered = df.filter(df.age > 18) df_grouped = df_filtered.groupBy("gender").agg({"salary": "avg"}) # 将结果写入MySQL中 url = "jdbc:mysql://localhost:3306/test" table = "result" mode = "overwrite" df_grouped.write.format("jdbc").option("url", url).option("dbtable", table).option("user", user).option("password", password).mode(mode).save() ``` 注意:需要将MySQL的JDBC驱动程序添加到Spark的classpath中。 ### 回答2: Spark可以通过JDBC方法连接数据库JDBC(Java Database Connectivity)是一种用于在Java程序和SQL数据库之间建立连接的API,它提供了一组访问和操作数据库的高级接口。Spark中也提供了对JDBC的支持,可以使用JDBC API连接各种关系型数据库。 要使用Spark的JDBC方法连接数据库,需要先在Spark中配置JDBC连接信息,例如数据库的驱动程序、连接URL、用户名和密码等,然后使用Spark的JDBC查询方法执行SQL语句,查询或更新数据库中的数据。 连接数据库需要使用Spark SQL或DataFrames等API,可以以JDBC方式加载数据或将数据保存到关系型数据库中。通过使用此功能,你可以从RDBMS中提取数据集并将其作为Spark RDD处理,也可以使用Spark SQL连接到关系型数据库中的表,使用Spark进行查询和聚合。 以下是Spark通过JDBC方法连接数据库的步骤: 1.配置JDBC连接信息,包括驱动程序、连接URL、用户名和密码等。 2.创建SparkSession对象,使用SparkSession对象创建DataFrame或者Dataset对象。 3.在SparkSession对象上设置连接属性,以便将其连接到关系型数据库中的表。 4.使用DataFrame或Dataset对象,执行Spark SQL查询,或将结果集保存到关系型数据库中。 总之,使用Spark JDBC连接数据库可以轻松地将关系型数据库和Spark集成在一起,以便更有效地使用数据。通过使用Spark JDBC连接数据库,你可以充分利用Spark的高级处理功能,以更好地支持应用程序的数据处理需求。 ### 回答3: Spark是一个内存计算框架,它支持通过JDBC连接数据库,实现数据的交互和处理。JDBC是Java数据库连接的标准,因此通过JDBC连接数据库也是连接Spark的常用方法之一。 在Spark中,可以使用JDBC数据源接口直接连接数据库连接数据库需要系统管理员提供数据库名称、数据库IP地址、数据库用户名和密码等信息。连接数据库的具体步骤如下: 1. 首先,在Spark应用程序中引入JDBC相关的库文件,比如mysql-connector-java包。 2. 通过JDBC方式连接到MySQL数据库,需要代码如下: ``` val url = "jdbc:mysql://localhost:3306/test" val driver = "com.mysql.jdbc.Driver" val username = "root" val password = "xxxxxx" val table = "student" val df = spark.read.format("jdbc").option("url", url).option("driver", driver).option("dbtable", table).option("user", username).option("password", password).load() ``` 上述代码中,url表示连接数据库的URL地址,driver表示数据库的驱动程序,dbtable表示要读取的数据表,user和password表示连接数据库的用户名和密码。 3. 读取数据表中的数据:完成连接配置后,就可以读取数据库中的数据了。读取方式如下: ``` df.show() ``` JDBC连接数据库虽然简单方便,但是对性能和可靠性有一定的要求,尤其是大数据量的情况下,需要对数据进行分区并适当的调优,才能更好的发掘Spark性能优势。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值