特征选择/筛选方法总结
1、特征分类原因
- 相关特征:对于学习任务(如分类)有帮助,可以提升学习算法的效果;
- 无关特征:对于算法没有任何帮助,不会给算法的效果带来任何提升;
- 冗余特征:不对我们的算法带来新的信息,或这种特征信息能由其他特征推出;
2、特征选择目的
- 避免维度灾难问题。
- 可以减少算法时间
- 增加模型解释性。
3、特征选择方法
-
3.1、过滤式方法
- 3.1.1、主要思想:
- 对每一维特征赋予权重,然后依据权重选择特征,然后训练学习器。
- 3.1.2、主要方法:
- Chi-squared test(卡方检验)
- Information gain(信息增益)
- Correlation coefficient scores(相关系数)
- 3.1.1、主要思想:
-
3.2、机器学习法
- 如回归模型,SVM,决策树,随机森林等等
-
3.3、正则化方法
- 3.3.1、正则化原理:把额外的约束或者惩罚项加到模型(损失函数)上,防止过拟合并提高泛化能力;
- 损失函数由原来的E(X,Y)变为E(X,Y)+alpha||w||;
- w是模型系数组成的向量(有些地方也叫参数parameter,coefficients);
- ||·||一般是L1或者L2范数,alpha是一个可调的参数,控制着正则化的强度。
- 3.3.2、L1正则化/Lasso regression
- L1正则化将系数w的l1范数作为惩罚项加到损失函数上,使那些弱的特征系数变成0;
- L1正则化会使模型很稀疏(系数w经常为0),使L1正则化成为一种很好的特征选择方法。
- 3.3.3、L2正则化/Ridge regression
- L2正则化将系数向量的L2范数添加到了损失函数中
- L2惩罚项中系数是二次方的,L2正则化会让系数的取值变得平均
- L2正则化对于特征选择来说一种稳定的模型,能力强的特征对应的系数是非零。
- 3.3.1、正则化原理:把额外的约束或者惩罚项加到模型(损失函数)上,防止过拟合并提高泛化能力;