特征冗余

最新推荐文章于 2025-03-03 15:52:48 发布

Yaphat

最新推荐文章于 2025-03-03 15:52:48 发布

阅读量1.1w

点赞数 2

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaphat/article/details/70659376

版权

机器学习专栏收录该内容

40 篇文章

订阅专栏

做科研使用，比较乱。

1、对称不确定性（SU）

取值在（0，1）之间，值越大，X，Y之间相关性越大，当取值为0，表示X,Y之间相互独立，反之，代表之间具有强依赖性，意味着当知道其中一个变量就可以推测出另一个变量.

这里写图片描述

可以分为C-相关和F-相关，任何一个特征f和类别C之间的关系叫做C-相关，和任何其他特征之间的关系叫做F-相关

2、互信息

互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度。

这里写图片描述

这里写图片描述

3、MRMR (最大相关最小冗余)

mRMR算法就是用来在保证最大相关性的同时，又去除了冗余特征的方法，相当于得到了一组“最纯净”的特征子集（特征之间差异很大，而同目标变量的相关性也很大）。
作为一个特例，变量之间的相关性（correlation）可以用统计学的依赖关系（dependency）来替代，而互信息（mutual information）是一种评价该依赖关系的度量方法。

这里写图片描述

这里写图片描述

4、一种思路
第一步采用Relief 对特征进行排序，得到每个特征的权重Wi,将特征小于阈值的删除，得到S1,然后对S1里的特征两两计算互信息，互信息大于一定阈值的删除权重较小的那个特征。

5、FCBF
使用了信息论中的对称不确定性来衡量 2 个特征的相关性，结合 Markov blanket 技术删除冗余特征

6、相关性度量标准
常见的评估特征之间相关性的标准
1、Pearson correlation coefficients
2、Fisher score
3、ReliefF
4、mutual information
5、trace ratio

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。