做科研使用,比较乱。
1、对称不确定性(SU)
取值在(0,1)之间,值越大,X,Y之间相关性越大,当取值为0,表示X,Y之间相互独立,反之,代表之间具有强依赖性,意味着当知道其中一个变量就可以推测出另一个变量.
可以分为C-相关和F-相关,任何一个特征f和类别C之间的关系叫做C-相关,和任何其他特征之间的关系叫做F-相关
2、互信息
互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度。
3、MRMR (最大相关最小冗余)
mRMR算法就是用来在保证最大相关性的同时,又去除了冗余特征的方法,相当于得到了一组“最纯净”的特征子集(特征之间差异很大,而同目标变量的相关性也很大)。
作为一个特例,变量之间的相关性(correlation)可以用统计学的依赖关系(dependency)来替代,而互信息(mutual information)是一种评价该依赖关系的度量方法。
4、一种思路
第一步采用Relief 对特征进行排序,得到每个特征的权重Wi,将特征小于阈值的删除,得到S1,然后对S1里的特征两两计算互信息,互信息大于一定阈值的删除权重较小的那个特征。
5、FCBF
使用了信息论中的对称不确定性 来衡量 2 个特征的相关性 ,结合 Markov blanket 技术删除冗余特征
6、相关性度量标准
常见的评估特征之间相关性的标准
1、Pearson correlation coefficients
2、Fisher score
3、ReliefF
4、mutual information
5、trace ratio