好的数据及特征往往是一个性能优异模型的基础
特征处理:
数据清洗(缺失值处理,异常值检验,调配样本比例和权重)
数据规范化
特征衍生与规范
特征选择:
特征过滤
Wrapper method
Embedded method
数据清洗(缺失值处理,异常值检验,调配样本比例和权重)
缺失值处理:(以免引入过多人工信息)
方法:删除缺失值和填充缺失值
删除缺失值,当某一样本的多个值缺失时,便可删除这一样本
当某一特征的缺失值,多于样本总数的一半,也就是当一半多的样本都缺失这一特征值时,可以将这一特征删除。
异常值检验:
- 基于高斯分布,随着一个特征进行变化,看另一特征是否太偏离高斯分布,超过三倍标准差
- 聚类方法
- One class svm
Novelty detection :当训练数据中没有离群点,我们的目标是用训练数据训练出的模型去检验另外发现的新样本
数据规范化
数据无量纲化
连续变量离散化
离散变量处理
数据无量纲化:去除数据的单位限制,将其转换为无量纲的纯数字
- 标准化处理: 对每一列进行处理
- 极值化处理:
- 均值化:
连续变量离散化:一些情况下离散变量能简化模型计算并提高模型的稳定性。
特征提取
- PCA主成分分析
去除均值,对每一个特征减去各自的均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征向量按照特征值从大到小的顺序,取靠前的k个特征向量
将数据转换为k个特征向量构建的空间中,即为降维到k维后的数据
- LDA线性判别分析
计算类内离散度矩阵
计算类间离散度矩阵
计算类内里算的矩阵的逆与类间离散度矩阵的乘积
计算乘积结果的最大特征值及其对应的特征向量,得到投影矩阵
将数据集中每一个样本特征转换为新样本
输出得到新数据集