模型特征删选

特征选择/筛选方法总结

1、特征分类原因
  • 相关特征:对于学习任务(如分类)有帮助,可以提升学习算法的效果;
  • 无关特征:对于算法没有任何帮助,不会给算法的效果带来任何提升;
  • 冗余特征:不对我们的算法带来新的信息,或这种特征信息能由其他特征推出;
2、特征选择目的
  • 避免维度灾难问题。
  • 可以减少算法时间
  • 增加模型解释性。
3、特征选择方法
  • 3.1、过滤式方法
    • 3.1.1、主要思想:
      • 对每一维特征赋予权重,然后依据权重选择特征,然后训练学习器。
    • 3.1.2、主要方法:
      • Chi-squared test(卡方检验)
      • Information gain(信息增益)
      • Correlation coefficient scores(相关系数)
  • 3.2、机器学习法
    • 如回归模型,SVM,决策树,随机森林等等
  • 3.3、正则化方法
    • 3.3.1、正则化原理:把额外的约束或者惩罚项加到模型(损失函数)上,防止过拟合并提高泛化能力;
      • 损失函数由原来的E(X,Y)变为E(X,Y)+alpha||w||;
      • w是模型系数组成的向量(有些地方也叫参数parameter,coefficients);
      • ||·||一般是L1或者L2范数,alpha是一个可调的参数,控制着正则化的强度。
    • 3.3.2、L1正则化/Lasso regression
      • L1正则化将系数w的l1范数作为惩罚项加到损失函数上,使那些弱的特征系数变成0;
      • L1正则化会使模型很稀疏(系数w经常为0),使L1正则化成为一种很好的特征选择方法。
    • 3.3.3、L2正则化/Ridge regression
      • L2正则化将系数向量的L2范数添加到了损失函数中
      • L2惩罚项中系数是二次方的,L2正则化会让系数的取值变得平均
      • L2正则化对于特征选择来说一种稳定的模型,能力强的特征对应的系数是非零。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值