PysparkNote101---DataFrame行转列

  sql里经常会遇到行转列or列转行,如果数据框为{“A”,[1,2])},需要行转列为{(“A”,1),(“B”,2)}。话不多说,直接看代码。

import pyspark.sql.functions as F
from pyspark.sql import SparkSession
# 创建SparkSession对象,调用.builder类
# .appName("testapp")方法给应用程序一个名字;.getOrCreate()方法创建或着获取一个已经创建的SparkSession
spark = SparkSession.builder.appName("pysaprk").getOrCreate()
df = spark.createDataFrame(data=[("A", [1, 2]), ("B", [3, 4])],
                            schema=["id", "index"])
df.withColumn("index_sub",F.explode(F.col("index"))).show(truncate=False)
+---+------+---------+
|id |index |index_sub|
+---+------+---------+
|A  |[1, 2]|1        |
|A  |[1, 2]|2        |
|B  |[3, 4]|3        |
|B  |[3, 4]|4        |
+---+------+---------+

                        2020-09-18 于南京市江宁区九龙湖

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值