特征选择与稀疏学习

最新推荐文章于 2024-10-16 20:27:35 发布

_森罗万象

最新推荐文章于 2024-10-16 20:27:35 发布

阅读量396

点赞数

分类专栏：学习笔记文章标签：学习算法

本文链接：https://blog.csdn.net/weixin_52812620/article/details/128599780

版权

学习笔记专栏收录该内容

52 篇文章 1 订阅

订阅专栏

从给定特征集合中筛选出对当前学习任务有用的属性称为特征选择，本章假设特征集合没有冗余特征，且初始特征集合包含了所有重要信息。一般没有领域知识作为先验假设，特征选择一般做法是产生一个“候选子集”，评价出它的好坏，基于评价结果产生下一个子集再评价，直到无法找到更好的候选子集。从单个特征开始不断增加单个特征直到增加特征后结果不如增加前的子集搜索策略是“前向搜索”，每次消除一个特征的搜索是“后向搜索”，二者结合是“双向搜索”，这些都是贪心策略不能保证最优；子集评价可以根据信息增益或者对于分类任务而言可以看根据属性划分数据集和根据标签划分数据集的相似程度。将子集搜索和子集评价结合起来即得到特征选择方法，大致可分为三类：过滤式，包裹式和嵌入式

过滤式选择与后续学习器无关，一种著名过滤式 $R e l i e f$ 方法设置了相关统计量向量度量特征重要性，每个分量分别对应一个特征，最后根据阈值 $\tau$ 或特征个数 $k$ 来筛选特征。计算相关统计量的方法如下：给定训练集 $\{(x_1,y_1),(x_2,y_2),\dots,(x_m,y_m)\}$ ，对每个 $x_i$ ，在同类样本中找到最近邻 $x_{i,near-hit}$ 称为猜中近邻，在异类样本中找到最近邻 $x_{i,near-miss}$ 称为猜错近邻，相关统计量对于属性 $j$ 的分类即为 $\delta^j=\sum_i-diff(x_i^j-x^j_{i,nh})^2+diff(x_i^j-x^j_{i,nm})^2$ ，这个式子即表明如果在属性 $j$ 上最近邻是同类样本， $\delta^j$ 较大，此时属性 $j$ 对区分同异类样本是有增益的，如果不采样所有数据集可以加快速度，对于多分类任务有扩展变体 $R e l i e f - F$ ，改动仅在对于其他每个类都找到猜错近邻，然后 $\delta^j$ 的第二项是按比例求和