PySpark入门七：DataFrame的合并、分割

最新推荐文章于 2024-01-20 17:51:27 发布

Roc Huang

最新推荐文章于 2024-01-20 17:51:27 发布

阅读量5.3k

点赞数 1

分类专栏： PySpark从入门到放弃数据分析文章标签： spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108352768

版权

合并 join/union

1.1 join

# 1. 拼接两个df
df3 = df1.union(df2)
df.unionALL(df.limit(1))

# 2. 根据条件拼接
# 单字段
df = df_left.join(df_right, df_left.key == df_right.key, "inner")
# 多字段
df1.join(df2, Seq("id", "name")）
# 混合字段
df1.join(df2, df1("id" ) === df2( "t1_id"))

join 操作与pandas中的merge操作相似，需要注意拼接时坐标为主还是右表为主，是内连接还是外连接。

1.2 查看两个df的并集和交集

# 构建df
sentenceDataFrame = spark.createDataFrame((
      (1, "asf"),
      (2, "21

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Roc Huang

关注关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
PySpark入门七：DataFrame的合并、分割

合并 join/union1.1 join# 1. 拼接两个dfdf3 = df1.union(df2)df.unionALL(df.limit(1))# 2. 根据条件拼接# 单字段df = df_left.join(df_right, df_left.key == df_right.key, "inner")# 多字段df1.join(df2, Seq("id", "name")）# 混合字段df1.join(df2, df1("id" ) === df2( "t1_id"))
复制链接

扫一扫