PySpark入门十二：数据清洗之离群值

最新推荐文章于 2023-04-03 22:04:09 发布

Roc Huang

最新推荐文章于 2023-04-03 22:04:09 发布

阅读量799

点赞数 1

分类专栏： PySpark从入门到放弃数据分析文章标签： spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108432941

版权

本文介绍了PySpark中如何进行数据清洗，特别是离群值的查找和处理。通过构造数据实例，解释了离群值的概念，并探讨了使用均值、四分位数等方法确定离群值阈值，特别是利用approxQuantile()函数计算分位数。最后，展示了如何在源数据中标记和显示离群值。

摘要由CSDN通过智能技术生成

离群值的查找及处理

构造数据

# 导包
from pyspark import SparkContext
from pyspark.sql.session import SparkSession

# 连接
sc = SparkContext.getOrCreate()
spark = SparkSession(sc)

# 生成数据
df_outliers = spark.createDataFrame([
    (1, 144.5, 5.9, 33,),
    (2, 167.2, 5.4, 45,),
    (3, 124.1, 5.5

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Roc Huang

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
PySpark入门十二：数据清洗之离群值

离群值的查找及处理构造数据# 导包from pyspark import SparkContextfrom pyspark.sql.session import SparkSession# 连接sc = SparkContext.getOrCreate()spark = SparkSession(sc)# 生成数据df_outliers = spark.createDataFrame([ (1, 144.5, 5.9, 33,), (2, 167.2, 5.4, 45,
复制链接

扫一扫