描述性统计 描述性统计是熟悉数据的最直接的方法之一,可以让我们很轻松就知道数据中有多少个缺失的观测数据、平均值、标准差、最大最下值 # 导包和创建连接的代码我就不写了 # 加载数据类型模块 import pyspark.sql.types as typ # 加载数据 fraud = sc.textFile('./ccFraud.csv') header = fraud.first() # 删除标题行 并将每个元素转化为整形 fraud = fraud.filter(lambda row: row != header).map<