如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
特征选择是一个很重要的数据预处理过程:
- 选择出重要的特征可以缓解灾难维数问题
- 去除不相关特征可以降低学习任务的难度
特征选择可分为子集搜索和子集评价:
- 子集搜索:前向搜索(逐渐增加特征),后向搜索(逐渐减少特征)
- 子集评价:可采用信息增益对子集进行评价
1. 过滤式选择
过滤式方法先对数据进行特征选择,然后再训练分类器。
Relief(Relevant Features)是著名的过滤式特征选择方法。该方法假设特征子集的重要性是由子集中的每个特征所对应的相关统计量分量之和所决定的。所以只需要选择前 k k k个大的相关统计量对应的特征,或者大于某个阈值的相关统计量对应的特征即可。
Relief先在 x i x_i xi的同类样本中寻找其最近邻 x i , n h x_{i,nh} xi,nh称为“猜中近邻”,再从 x i x_i xi个异类样本中寻找其最近邻 x i , n m x_{i,nm} xi,nm称为“猜错近邻”,属性 j j j的相关统计量定义为:
δ j = ∑ i − d i f f ( x i j , x