SparkSql学习---数据清洗API

卓_尔_不_凡

于 2024-04-24 09:57:45 发布

阅读量142

点赞数 3

分类专栏： spark-sql 文章标签：学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46164667/article/details/138148511

版权

spark-sql 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

数据源 popple.csv：

name;age;job
Jorge;30;Developer
Bob;32;Developer
Ani;11;Developer
Lily;11;Manager
Put;11;Developer
Alice;9;Manager
Alice;9;Manager
Alice;9;Manager
Alice;9;Manager
Alice;;Manager
Alice;9;
zhangsan;;
;21;

# coding:utf8
import time

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StringType, IntegerType
import pandas as pd
from pyspark.sql import functions as F


if __name__ == '__main__':
    # 0. 构建执行环境入口对象SparkSession
    spark = SparkSession.builder.\
        appName("test").\
        master("local[*]").\
        config("spark.sql.shuffle.partitions", 2).\
        getOrCreate()
    sc = spark.sparkContext
    df=spark.read.format("csv").option("sep",";").option("header",True).load("../../data/input/sql/people.csv")
    # 数据清洗: 数据去重
    # dropDuplicates 是DataFrame的API, 可以完成数据去重
    # 无参数使用, 对全部的列 联合起来进行比较, 去除重复值, 只保留一条
    df.dropDuplicates().show()
    df.dropDuplicates(['age', 'job']).show()

    # 数据清洗: 缺失值处理
    # dropna api是可以对缺失值的数据进行删除
    # 无参数使用, 只要列中有null 就删除这一行数据
    df.dropna().show()
    # thresh = 3表示, 最少满足3个有效列,  不满足 就删除当前行数据
    df.dropna(thresh=3).show()

    df.dropna(thresh=2, subset=['name', 'age']).show()

    # 缺失值处理也可以完成对缺失值进行填充
    # DataFrame的 fillna 对缺失的列进行填充
    df.fillna("loss").show()

    # 指定列进行填充
    df.fillna("N/A", subset=['job']).show()

    # 设定一个字典, 对所有的列 提供填充规则
    df.fillna({"name": "未知姓名", "age": 1, "job": "worker"}).show()

卓_尔_不_凡

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

卓_尔_不_凡 CSDN认证博客专家 CSDN认证企业博客

码龄5年

53: 原创

110万+: 周排名

6万+: 总排名

3万+: 访问

: 等级

1063: 积分

421: 粉丝

518: 获赞

17: 评论

335: 收藏

私信

关注

热门文章

分类专栏

案例实战 23篇
Pytorch 2篇
爬虫
Python 11篇
Java 2篇
Hive 6篇
数仓搭建 5篇
Hadoop 10篇
spark 12篇
spark-sql 8篇
Linux 1篇

最新评论

hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
m0_72369705: # 客户表 sqoop import \ --connect jdbc:mysql://192.168.52.150:3306/scrm \ --username root \ --password 123456 \ --query 'SELECT *, "2021-09-27" AS start_time FROM customer where 1=1 and $CONDITIONS' \ --hcatalog-database itcast_dimen \ --hcatalog-table customer \ -m 1 你好，作者大大，这是你的文章《基于hive教育平台数据仓库分析案例二》中的数据采集的 DIM层维度表里的一段代码，我想问问这段代码是放在脚本里面执行吗，还是放在哪里执行。要是放在脚本里执行可以给一个完整的脚本吗？求求了，一定要回我，目前我只能向你发一天信息
hadoop学习---基于Hive的数据仓库相关函数机制及其优化方案
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的航空公司客户价值的LRFCM模型案例
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的教育平台数据仓库分析案例（一）
普通网友: 学到了，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop学习---基于Hive的数仓搭建增量信息拉链表的实现
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。