使用pyspark操作数据库

本文介绍了如何使用PySpark库来操作数据库,分为1.篇和2.篇进行详细讲解,涵盖了PySpark连接数据库的基础知识和实践技巧。
摘要由CSDN通过智能技术生成

使用pyspark操作数据库

1.sqlite

# -*- coding: utf-8 -*-
# @Author: xiaodong
# @Date  : 2020/4/4

from pyspark.sql import SparkSession


if __name__ == '__main__':
    spark = SparkSession.builder.appName("sqlite").getOrCreate()

    # 注意,这里的sqlite的db路径需要写绝对路径。
    url = "jdbc:sqlite:D:/work/workspace/python_executor_db/data/dbs/movies.db?rewriteBatchedStatements=true"
    properties = {
   "driver": "org.sqlite.JDBC"}
    links_frame = spark.read.jdbc(url,
                                  "(select * from links)a",
                                  properties=properties)
    movies_frame = spark.read.jdbc(url,
                                   "(select * from movies)b",
                                   properties=properties)

    # 如果你擅长用sql,你可以这么做
    links_frame.registerTempTable("links")
    movies_frame.registerTempTable("movies")

    r = spark.sql("""
        select
            a.*, b.*
        from 
            links a,
            movies b
        where a.movieId = b.movieId
    """)
	r.show()
    
    # 以下两种
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值