特征冗余

做科研使用,比较乱。

1、对称不确定性(SU)

取值在(0,1)之间,值越大,X,Y之间相关性越大,当取值为0,表示X,Y之间相互独立,反之,代表之间具有强依赖性,意味着当知道其中一个变量就可以推测出另一个变量.

这里写图片描述

可以分为C-相关和F-相关,任何一个特征f和类别C之间的关系叫做C-相关,和任何其他特征之间的关系叫做F-相关

2、互信息

互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度。

这里写图片描述

这里写图片描述

3、MRMR (最大相关最小冗余)

mRMR算法就是用来在保证最大相关性的同时,又去除了冗余特征的方法,相当于得到了一组“最纯净”的特征子集(特征之间差异很大,而同目标变量的相关性也很大)。
作为一个特例,变量之间的相关性(correlation)可以用统计学的依赖关系(dependency)来替代,而互信息(mutual information)是一种评价该依赖关系的度量方法。

这里写图片描述

这里写图片描述

4、一种思路
第一步采用Relief 对特征进行排序,得到每个特征的权重Wi,将特征小于阈值的删除,得到S1,然后对S1里的特征两两计算互信息,互信息大于一定阈值的删除权重较小的那个特征。

5、FCBF
使用了信息论中的对称不确定性 来衡量 2 个特征的相关性 ,结合 Markov blanket 技术删除冗余特征

6、相关性度量标准
常见的评估特征之间相关性的标准
1、Pearson correlation coefficients
2、Fisher score
3、ReliefF
4、mutual information
5、trace ratio

### 卷积神经网络特征提取过程中的冗余减少方法 在标准卷积神经网络(CNN)的特征提取过程中,通过特定的设计原则和技术手段可以有效减少特征冗余。以下是几种主要的方法: #### 1. **局部感知野** 传统的全连接神经网络中,每个隐藏层神经元会对输入的所有像素点作出响应,这种方式引入了大量的冗余连接[^1]。而在卷积神经网络中,采用的是局部感知野的概念,即每个神经元仅对输入的一个小区域敏感并作出反应。这种方法显著减少了不必要的计算量和参数数量。 #### 2. **稀疏连接** 卷积层实现了稀疏连接的思想,使得每一层的输出只依赖于前一层的部分单元而不是全部单元。这样的设计不仅降低了复杂度,还帮助模型专注于重要的局部模式而非全局无意义的信息[^3]。 #### 3. **权值共享机制** 另一个重要特性是权值共享,它意味着同一卷积核在整个输入空间重复应用相同的权重来进行滤波操作。这一策略极大地削减了自由参数的数量,同时增强了泛化能力,因为它假设不同位置具有相似性的统计性质。 #### 4. **池化操作** 除了上述提到的技术外,池化层也是降低维度以及去除多余细节的有效工具之一。最大池化(Max Pooling)或者平均池化(Average Pooling),它们通过对相邻感受域内的数值取极值或均值的方式进一步压缩数据规模,保留最重要的信息的同时丢弃次要变化[^4]。 ```python import torch.nn as nn class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv_layer = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1)[^3] self.pool_layer = nn.MaxPool2d(kernel_size=2, stride=2) def forward(self, x): x = self.conv_layer(x) x = self.pool_layer(x) return x ``` 以上代码片段展示了一个简单版本的卷积神经网络架构,其中包括了卷积层用于特征抽取以及池化层用来降维处理。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值