特征选择

一枚达达

于 2021-01-14 16:05:56 发布

阅读量316

点赞数

文章标签：机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48457572/article/details/112610939

版权

1. 线性回归中的特征选择：Lasso、Rdige回归

对线性回归进行正则化，即在线性回归的基本公式后面加上对于线性回归系数的惩戒因子。

这个意义就是不放任每个特征值参与线性回归的模型计算，即防止过拟合。是一个tradeoff的过程。

按范数1、2型，分为了Lasso和Ridge。

如使用Lasso进行特征值选择，则需要找到适合的Lambda值。

在python中一般先拟定lambda的值，然后用数据集通过k-fold交叉验证进行确定。

然后依据图中反映的Lasso，可以在最优的Lambda值的位置可以将特征划分为系数0和系数不为0的两个特征集，从而筛选出主要特征。

2. random forest的特征选择

首先要知道RF的模型的基本原理。

RF模型的基本原理是，在bagging（bootstrap aggregation）的原理上。

一、用重抽样方法（bootstrap）选出多组样本；

二、随机选择一个特征集合的子集，各自生成归类树，找出每一组重抽样样本中，最合适的生成方法；

三、将每组样本中的划分方法用到原数据集中，找出不纯度，即误差最小的划分方法。

可以看出RF自带选择特征集合的子集的功能。

因此在python中，可以从fit到的RF模型中，通过feature_improtances_导出按特征的重要程度排列的特征集合。

由此可以选择排名靠前的特征，从而实现特征选择。

3. RFE（Recursive feature elimination），递归特征消除

顾名思义，用选定的模型去fit数据集。

RFE的原理是通过每次淘汰最重要的特征，在此递归，然后再剔除次之重要的特征，如此反复得到特征按重要程度排列的list。

而鉴别特征是否重要，我个人理解：

对于线性回归，观察p值，看p值最小，即最不可能为0的特征，也就是最有关联的特征值；

对于Ramdom forest，则像上文阐述过的那样，应该是通过特征在各子集中出现的count，来判定重要程度。etc

4. F_regression

（一句话就能讲清楚: 每个特征 X 单独拎出来和 Y 计算相关系数, 并排序. 特征选择就是基于 X 和 Y 的相关程度.

当然实际操作还是分了三步:

计算相关系数;

转化为 F score;

计算 p 值;

最后排名是根据 F score, 可以选择输出 p 值.）——转自https://www.h3399.cn/201808/609067.html

5. VarianceThreshold

通过特征的方差来提取特征，为小于设定阈值的特征被剔除。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
特征选择

1. 线性回归中的特征选择：Lasso、Rdige回归对线性回归进行正则化，即在线性回归的基本公式后面加上对于线性回归系数的惩戒因子。这个意义就是不放任每个特征值参与线性回归的模型计算，即防止过拟合。是一个tradeoff的过程。按范数1、2型，分为了Lasso和Ridge。如使用Lasso进行特征值选择，则需要找到适合的Lambda值。在python中一般先拟定lambda的值，然后用数据集通过k-fold交叉验证进行确定。然后依据图中反映的Lasso，可以在最优的La
复制链接

扫一扫

一枚达达 CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

106万+: 周排名

57万+: 总排名

1万+: 访问

: 等级

182: 积分

8: 粉丝

11: 获赞

9: 评论

53: 收藏

私信

关注

热门文章

最新评论

分类与逻辑回归(classification and logistic regression)
一枚达达: 嗯嗯是的，我的理解是classification的英文释义是“分类”，分类是我们要解决的问题也是目标，像kmeans这种无监督学习，就是没有target但其实也算是一个分类问题，即把空间点分为几组聚“类”；logistic则相对的是监督学习问题，最终通过训练一个模型，实现的也是将没有target的test集预测出他们属于哪一类。即我的理解是logistic是一种实现classification的方法
分类与逻辑回归(classification and logistic regression)
橘猫吃鸡腿: classification还是包括LDA，贝叶斯那些吧，感觉区别是logistic你知道结果是A还是B，classification的话你不知道结果是什么，只管分类，有监督和无监督的区别，个人感觉，欢迎指正
分类与逻辑回归(classification and logistic regression)
一枚达达: classification是一种问题，logistics regression是解决分类问题的一种模型或者方式
分类与逻辑回归(classification and logistic regression)
橘猫吃鸡腿: 所以logistic和classification有啥区别
凸优化解决线性回归问题
不吃西红柿丶: 平凡文字中显示出不凡的文学功底，哈哈哈哈哈哈。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。