PySpark入门十三:数据清洗之描述性统计
最新推荐文章于 2023-12-20 10:41:30 发布
本文介绍了PySpark中的描述性统计,包括数据的缺失值、平均值、标准差和范围,揭示数据分布特性。还讨论了如何检查数据相关性,指出在pyspark中使用corr()方法的限制及其计算开销。最后,预告了后续将探讨的数据可视化和特征交互主题。
摘要由CSDN通过智能技术生成