PySpark 查询数据库信息

最新推荐文章于 2022-09-01 22:27:56 发布

nsq_ai

最新推荐文章于 2022-09-01 22:27:56 发布

阅读量806

点赞数 1

分类专栏： SparK学习和总结 Python基础学习数据库基础文章标签： spark sql python

本文链接：https://blog.csdn.net/weixin_45063703/article/details/120234896

版权

Python基础学习同时被 3 个专栏收录

123 篇文章 17 订阅

订阅专栏

SparK学习和总结

25 篇文章 2 订阅

订阅专栏

数据库基础

6 篇文章 0 订阅

订阅专栏

前言

最近学的东西有些杂乱无章，用到什么就要学习什么，简单记录一下所学的东西，方便后面的巩固学习。
pyspark简单查询数据库的一些信息

程序

导入环境设置

from pyspark.sql import SparkSession, Row
from pyspark import SQLContext
from pyspark.sql.functions import udf, col, explode, collect_set, get_json_object, concat_ws,  split
from pyspark.sql.types import StringType, IntegerType, StructType, StructField, ArrayType, MapType

# from offline_verification_func import *
spark = SparkSession \
        .builder.master("local[50]") \
        .config("spark.executor.memory", "10g")\
        .config("spark.driver.memory", "20g")\
        .config("spark.driver.maxResultSize","4g")\
        .appName("test") \
        .enableHiveSupport() \
        .getOrCreate()

查询信息1

spark.sql(""" 
select id, name, age
from students
where  age > 14
order by age
""").show()

将查询信息转为Pandas格式

df = spark.sql(""" 
select id, name, age
from students
where  age > 14
order by age
""")
# df.repartition(1).write.mode("overwrite").format('csv').save("dfr.csv")


df.toPanads().to_csv("df.csv")

总结

spark.sql()中用到的是select from where group by having order by limit 等通用的查询和筛选的条件，这个是通用的。
pyspark 查询到的信息可以保存，格式是DataFrame和 python DataFrame 是不一样的。这个要区别一下
两种对应不同的保存方式。

nsq_ai

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
PySpark 查询数据库信息

前言最近学的东西有些杂乱无章，用到什么就要学习什么，简单记录一下所学的东西，方便后面的巩固学习。pyspark简单查询数据库的一些信息程序导入环境设置from pyspark.sql import SparkSession, Rowfrom pyspark import SQLContextfrom pyspark.sql.functions import udf, col, explode, collect_set, get_json_object, concat_ws, split
复制链接

扫一扫