PySpark入门八：DataFrame 删及SQL操作

最新推荐文章于 2023-05-27 18:53:57 发布

Roc Huang

最新推荐文章于 2023-05-27 18:53:57 发布

阅读量979

点赞数 1

分类专栏： PySpark从入门到放弃数据分析文章标签： spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108371963

版权

一、删1.1 删除列df.drop('age').collect()df.drop(df.age).collect()1.2 删除空值df = df.na.drop() # 删除任何列包含na的行df = df.dropna(subset=['col1', 'col2']) # 删掉col1或col2中任一一列包含na的行1.3 填充NAdf.fillna(-1)1.4 去重# 返回不包含重复行的dataframedf.distinct()# 指定字段去重df.sele

摘要由CSDN通过智能技术生成

一、删

1.1 删除列

df.drop('age').collect()
df.drop(df.age).collect()

1.2 删除空值

df = df.na.drop()  # 删除任何列包含na的行
df = df.dropna(subset=['col1', 'col2'])  # 删掉col1或col2中任一一列包含na的行

1.3 填充NA

df.fillna(-1)

1.4 去重

# 返回不包含重复行的dataframe
df.distinct

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Roc Huang

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
PySpark入门八：DataFrame 删及SQL操作

一、删1.1 删除列df.drop('age').collect()df.drop(df.age).collect()1.2 删除空值df = df.na.drop() # 删除任何列包含na的行df = df.dropna(subset=['col1', 'col2']) # 删掉col1或col2中任一一列包含na的行1.3 填充NAdf.fillna(-1)1.4 去重# 返回不包含重复行的dataframedf.distinct()# 指定字段去重df.sele
复制链接

扫一扫