特征选择学习笔记
1.特征之间的相关性分析
2.特征与类别之间的相关性分析
特征选择的三个方法
1.filter(过滤法)
定义:按照发散性或相关性对各个特征进行评分,设定阈值或者待选择特征的个数进行筛选,分为单变量过滤方法和多变量过滤方法
- 单变量过滤方法:不需要考虑特征之间的相互关系,按照特征变量和目标变量之间的相关性或互信息对特征进行排序,过滤掉最不相关的特征变量。优点是计算效率高、不易过拟合
多变量过滤方法:考虑特征之间的相互关系,常用方法有基于相关性和一致性的特征选择
1.1常用的过滤方法
(1)方差选择法
(2)Pearson相关系数
(3)卡方验证 互信息法和最大信息系数
(4)fisher得分 :Fisher线性分类器是将n维训练样本投影到1维空间上,然后在一维空间进行分类,最关键的参数就是投影方向w。
(5)相关特征选择(correlation feature selection ,CFS)
(6)最小冗余最大相关性(minimum redundancy maxumum relevance ,mrmr)
(7)relief算法
2.wrapper(包装法)
**