目录
一、pyspark.ml.feature特征处理
方法 | 描述 | 功能 | |
连续特征离散化 | Binarizer | 将连续值划分为二元离散数值 | 连续特征离散化 |
Bucketizer | 将连续值划分为多元离散数值 | 连续特征离散化 | |
QuantileDiscretizer | 分位数离散化,将连续型特征转换为分级类别特征,每个类别的元素个数大致相等 | 连续特征离散化 | |
特征选择 | ChiSqSelector | 根据卡方检验,选取类别标签主要依赖的特征 | 特征选择 |
PCA | 主成分分析,找出特征中最重要的特征,进行降维 | 特征提取、数据降维 | |
VectorSlicer | 从原来的特征向量中切割一部分,形成新的特征向量 | 特征选择 | |
特征归一化 |