特征冗余

做科研使用,比较乱。

1、对称不确定性(SU)

取值在(0,1)之间,值越大,X,Y之间相关性越大,当取值为0,表示X,Y之间相互独立,反之,代表之间具有强依赖性,意味着当知道其中一个变量就可以推测出另一个变量.

这里写图片描述

可以分为C-相关和F-相关,任何一个特征f和类别C之间的关系叫做C-相关,和任何其他特征之间的关系叫做F-相关

2、互信息

互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度。

这里写图片描述

这里写图片描述

3、MRMR (最大相关最小冗余)

mRMR算法就是用来在保证最大相关性的同时,又去除了冗余特征的方法,相当于得到了一组“最纯净”的特征子集(特征之间差异很大,而同目标变量的相关性也很大)。
作为一个特例,变量之间的相关性(correlation)可以用统计学的依赖关系(dependency)来替代,而互信息(mutual information)是一种评价该依赖关系的度量方法。

这里写图片描述

这里写图片描述

4、一种思路
第一步采用Relief 对特征进行排序,得到每个特征的权重Wi,将特征小于阈值的删除,得到S1,然后对S1里的特征两两计算互信息,互信息大于一定阈值的删除权重较小的那个特征。

5、FCBF
使用了信息论中的对称不确定性 来衡量 2 个特征的相关性 ,结合 Markov blanket 技术删除冗余特征

6、相关性度量标准
常见的评估特征之间相关性的标准
1、Pearson correlation coefficients
2、Fisher score
3、ReliefF
4、mutual information
5、trace ratio

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值