特征选择:从大规模的特征空间中提取与所需任务相关的特征。
特征提取:结合任务本身的特点,通过结合和转换原始的特征集,构造出新的特征。
基于特征的选择的机制,特征选择可以分为四类:
1)Filter 方法
特点: 1. 不借助学习算法; 2. 依赖于真实世界的数据集的特征; 3. 一般方式是为每一个特征进行“打分”评估;即给每一维权重赋予权重,权重即代表了该特征的重要性,然后按重要性进行排序。
代表:Chi-squared test (卡方检验)、 information gain (信息增益)、 correlation coefficient scores(相关系数)
2)wrapper 方法
特点:1. 借助学习算法,通过选择出特征评价分类的准确性,来评判特征选择的好坏。 2.计算的复杂度高 3. 一般看成选择最优的特征组合,借助一些常用的优化算法可以解决。
代表: recursive feature elimination algorithm (递归特征消除算法),具体的使用方法可以参考:sklearn 中的 wrapper 方法 特征选择
3) embedded 方法
特点:1. 依赖于 学习算法选择,不同学习算法使用不同的特征组合
代表: 正则化 (L1 norm , L2 norm , L2-P norm), Ridge Regression (岭回归)线性回归
4) hybrid 方法
特点: 1. filter 和 wrapper 方法结合物
代表:
参考文献:
Hoque N, Ahmed H A, Bhattacharyya D K, et al. A fuzzy mutual information-based feature selection method for classification[J]. Fuzzy Information and Engineering, 2016, 8(3): 355-384.
https://blog.csdn.net/google19890102/article/details/40019271