spark jdbc 数据库操作

最新推荐文章于 2024-06-12 16:14:47 发布

林林彡

最新推荐文章于 2024-06-12 16:14:47 发布

阅读量780

点赞数

文章标签： spark jdbc

本文链接：https://blog.csdn.net/weixin_43942334/article/details/101155816

版权

使用spark向数据库执行写入操作

本文基于pyspark模块，实现将某个查询结果集插入远程数据库中。脚本语言：python

1.获取结果集

连接spark，使用spark查询到的结果集是一个DataFrame

select_sql = "select id,count(*) from tableA group by id"
df = spark.sql(select_sql)

2.将结果集写入远程数据库

append模式或overwrite模式
append模式：原来的数据保留，向后插入新数据
overwrite模式：删除原来的数据，插入新数据

# WriteMode 根据实际情况，一般可选择append模式或overwrite模式
# driver用于连接到该URL的JDBC驱动程序
# url 要连接的JDBC URL
# dbtable 要写入的表
# user 远程数据库用户名
# password 远程数据库密码

 df.write.mode(WriteMode).format("jdbc") \
            			 .option("driver" ,"com.microsoft.sqlserver.jdbc.SQLServerDriver") \
            			 .option("url", dbConnStr) \
            			 .option("dbtable", TargetTable) \
                         .option("user", dbUser) \
                         .option("password", dbPass) \
                         .save()

写入完成。

与sqoop传输方式对比

楼主认为spark jdbc写入方式与sqoop export方式相比，spark jdbc方式具有更好的灵活性。
如：sqoop export方式只能选择传输哪些字段；而spark jdb方式可以灵活加入条件限制语句，选择符合条件的前100行，前200行，所有行…

传输效率

楼主实测，百万级以上数据传输效率更高
测试传输：3万数据，耗时12s
10万数据，耗时3min
1000万数据，耗时12min

林林彡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark jdbc 数据库操作

使用spark向数据库执行写入操作本文基于pyspark模块，实现将某个查询结果集插入远程数据库中。脚本语言：python1.获取结果集连接spark，使用spark查询到的结果集是一个DataFrameselect_sql = "select id,count(*) from tableA group by id"df = spark.sql(select_sql) 2.将结果集写...
复制链接

扫一扫