机器学习之特征选择

最新推荐文章于 2023-12-31 01:09:44 发布

weixin_43977771

最新推荐文章于 2023-12-31 01:09:44 发布

阅读量334

点赞数 1

本文链接：https://blog.csdn.net/weixin_43977771/article/details/84861970

版权

特征选择的本质就是在数据做处理之前先做一次预处理，把有用的特征筛选出来，没用的特征就扔掉。

举个例子，我要区分男女，但我现在有一些数据，比如身高，体重，年龄，电话号码，家庭住址。这些信息我如果能在作处理之前先进行一次筛选，把年龄，电话，住址筛去的话就可以：

压缩数据
加快通信传输，节省储存资源

算法效率
    简化计算，加快速度
    提升精确度
    发现数据潜在本质特征

所以，特征选择其实要做的工作就是将原本样本的D个特征筛选成d个特征的处理过程

同样，我们从图中可以看到整个过程我们需要进行子集选择和子集评价两个步骤，特征选择也主要分成了三种方案

Filter    根据每个特征对分类贡献的大小，定义其重要度，并根据这个来构成特征子集。还需要设立阈值来作为停止准则。
    （子集—评价函数）
Wrapper    依赖于学习过程，代入后端分类器看结果
    （子集—后端—看识别率）
Embedd    在学习机训练过程中通过优化一个目标函数在分类训练器中顺便实现了特征选择。

首先，对于特征子集的选择，我们可以用以下几种方法

1. 穷举    比如从五个特征中选取两个则需要 $C_{5}^{2}$   这10此计算。   这个办法计算量大，只适合适合维度（特征）小（少）的
2. 单独最优特征组合    对每个维度进行评估，分别计算，找前d个单独最优      这个办法的缺点是存在特征冗余（前3个特征相关性很大甚至描述的是一回事，就会占了后面特征的名额）
3. 前向序贯，后向序贯
   前：每次加入一（K）个特征，使新的特征组合最优    但是一旦增加无法挽回
   后：每次减去一（K）个特征，使新的特征组合最优    但是一旦删除无法挽回
   演变：L-R法要么多加，要么多减，还可以把L和R分成Z步进行