Double Input Symmetrical Relevance (DISR)

DISR用途

DISR可用于特征筛选,该方法可以将 Variable Complementarity 纳入考虑,即考虑了多个变量联合作用与因变量的相关性,而不是仅仅考虑到单个变量与因变量的相关性。


例子1

假设有4个变量,因变量Y,自变量X_i X_s X_M,其中Y=X_i+X_s,而X_M=X_i/2。因此X_iX_s 的和 Y 相关,而X_M 和 X_i高度相关。(X_i 和X_s 就是 Variable Complementarity)

信息冗余会降低计算得到的条件互信息

I(X_i;Y|X_M)=H(Y|X_M)-H(Y|X_i,X_M)=0

但实际上 X_i 并不一定和 Y 不相关,这是由于X_M 和 X_i高度相关造成的。

通过添加条件,可以提高X_i 和 Y 的条件互信息

I(X_i;Y|X_s)=H(Y|X_s,X_i)-H(Y|X_s,X_i)=H(Y|X_s)

所以条件互信息受到两个变量是互补(Complementarity)还是冗余的影响,那么有没有更直观的方法去判断两个变量的互补关系呢?


两个自变量关于因变量的互补性定义为:

C_Y(X_i,X_j)=I(X_{ij};Y)-I(X_i;Y)-I(X_j;Y)

当 C_Y(X_i,X_j) > 0 ,X_i 和 X_j 关于 Y 互补;当 C_Y(X_i,X_j) < 0, X_i 和 X_j 关于 Y 相互冗余。


例子2

计算XOR运算种两个变量的互补性

X11100
X21010
Y0110

计算得到

C_Y(X_1,X_2)=log2-2log1>0

因此X_1 和 X_2 关于 Y 互补。


Double Input Symmetrical Relevance

DISR计算过程

将上述式子 C_Y(X_i,X_j) 进行变移项得到

I(X_{ij};Y)=I(X_i;Y)+I(X_j;Y)+C_Y(X_i,X_j)

其中,I(X_{ij};Y) 包括了X_i 和 X_j 各自关于Y 的相关性,以及X_i 和 X_j 关于 Y 的互补性。因此可以 I(X_{ij};Y)  进行特征变量的筛选。选择过程和前向选择法类似。

第一个变量可以将与 Y 互信息最大的特征加入到集合 S 中,然后依次计算 I(X_{ij};Y) ,并将值最大的特征变量加入到集合 S 中,直到达到设定好的集合 S 大小。即定义为:

X_{DISR}=\arg \mathop{\max}\limits_{X_i\in X_{-S}} \{\sum \limits_{X_j\in X_S} I(X_{ij};Y)\}

但是使用 I(X_{ij};Y) 的取值范围是0~+∞,所以可以使用对称相关性(Symmetrical Relevance, SR)代替I(X_{ij};Y),其取值范围为0~1。

SR(X;Y)=I(X,Y)/H(X,Y)

最后,

X_{DISR}=\arg \mathop{\max}\limits_{X_i\in X_{-S}} \{\sum \limits_{X_j\in X_S} SR(X_{ij};Y)\}

注意事项

DISR要求特征变量是离散的,需要对连续变量进行离散化处理。


参考资料

[1] b69b81126b7d1a5712101e16271d177ccdb8.pdf (semanticscholar.org)

[2] R: Double input symmetrical relevance filter (r-project.org)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值