pyspark指定schema

最新推荐文章于 2024-05-14 18:09:32 发布

爱吃鬼

最新推荐文章于 2024-05-14 18:09:32 发布

阅读量4.4k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_45639174/article/details/104416010

版权

spark 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

通过StructType对象指定DataFrame的Schema

没有嵌套结构的json

jsonString = [
"""{ "id" : "01001", "city" : "AGAWAM",  "pop" : 15338, "state" : "MA" }""",
"""{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "state" : "MA" }"""
]

jsonRDD = sc.parallelize(jsonString)

from pyspark.sql.types import *

#定义结构类型
#StructType：schema的整体结构，表示JSON的对象结构
#XXXStype:指的是某一列的数据类型
jsonSchema = StructType() \
  .add("id", StringType(),True) \
  .add("city", StringType()) \
  .add("pop" , LongType()) \
  .add("state",StringType())

jsonSchema = StructType() \
  .add("id", LongType(),True) \
  .add("city", StringType()) \
  .add("pop" , DoubleType()) \
  .add("state",StringType())

reader = spark.read.schema(jsonSchema)

jsonDF = reader.json(jsonRDD)
jsonDF.printSchema()
jsonDF.show()

带有嵌套结构的json

from pyspark.sql.types import *
jsonSchema = StructType([
    StructField("id", StringType(), True),
    StructField("city", StringType(), True),
    StructField("loc" , ArrayType(DoubleType())),
    StructField("pop", LongType(), True),
    StructField("state", StringType(), True)
])

reader = spark.read.schema(jsonSchema)
jsonDF = reader.json('data/nest.json')
jsonDF.printSchema()
jsonDF.show(2)
jsonDF.filter(jsonDF.pop>4000).show(10)

爱吃鬼

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
pyspark指定schema

通过StructType对象指定DataFrame的Schema没有嵌套结构的jsonjsonString = ["""{ "id" : "01001", "city" : "AGAWAM", "pop" : 15338, "state" : "MA" }""","""{ "id" : "01002", "city" : "CUSHMAN", "pop" : 36963, "stat...
复制链接

扫一扫