PySpark入门十三：数据清洗之描述性统计

最新推荐文章于 2023-12-20 10:41:30 发布

Roc Huang

最新推荐文章于 2023-12-20 10:41:30 发布

阅读量1.3k

点赞数

分类专栏： PySpark从入门到放弃数据分析文章标签：可视化数据分析 spark hadoop

本文链接：https://blog.csdn.net/weixin_43790705/article/details/108458565

版权

本文介绍了PySpark中的描述性统计，包括数据的缺失值、平均值、标准差和范围，揭示数据分布特性。还讨论了如何检查数据相关性，指出在pyspark中使用corr()方法的限制及其计算开销。最后，预告了后续将探讨的数据可视化和特征交互主题。

摘要由CSDN通过智能技术生成

描述性统计

描述性统计是熟悉数据的最直接的方法之一，可以让我们很轻松就知道数据中有多少个缺失的观测数据、平均值、标准差、最大最下值

# 导包和创建连接的代码我就不写了
# 加载数据类型模块
import pyspark.sql.types as typ

# 加载数据
fraud = sc.textFile('./ccFraud.csv')
header = fraud.first()

# 删除标题行 并将每个元素转化为整形
fraud = fraud.filter(lambda row: row != header).map