ZFNet(可视化和理解卷积网络)

本文介绍了ZFNet引入的特征可视化技术,特别是反池化方法,以揭示卷积网络内部工作原理。通过反激活和模型架构分析,研究了模型的敏感性和优化策略。对比了ZFNet与AlexNet的差异,展示了深度学习模型的改进路径。
摘要由CSDN通过智能技术生成

        在大型卷积网络在ImageNet比赛上表现出非常好的性能,但是人们并没有明确的理解他们为什么表现得如此优秀,并且如何改进他们,ZFNet介绍了一种新的可视化技术,帮助我们了解其中的原理,这也是他最大的贡献。

1.主要贡献

1.1特征可视化技术

1.1.1反池化

        理解卷积网络的操作需要理解中间层的特征活动,所以在模型中提出一种新颖的方法将这些活动映射回像素空间,反卷积可以理解为使用相同组件的逆向卷积模型,即不是将像素映射回特征而是将特征映射回像素。

        反卷积有三种方法,线性插值,反池化,卷积转置

        这篇文章先只介绍反池化(unpooling),也是今天介绍模型使用的方法,池化是不可逆的过程,因为池化过程会丢失很多的信息

        反池化的原理是把池化时的值与位置信息记录下来,然后还原回去,其他空缺的地方看情况而定,如果是最大池化,那么反池化后就添加0,如果是平均池化,那么空缺地方就添加池化值就行。

1.1.2 反激活

        在AlNet中,relu函数是保证每层的输出的激活值为正数,因此在反向过程中我们也需要每层激活值保证为正值,这与正常的激活过程是一样的,直接采用relu函数即可,后续实验中在输入的原始图像被遮挡时,特征图中激活有明显的下降

1.2 卷积网络可视化

        在有上面两个工具之后我们就可以进行特征可视化了,下图为训练完成后模型的特征可视化。对于给定的特征映射,我们显示前9个激活,每个激活分别映射到像素空间,揭示激发该映射输入变形的不变性的不同结构。

        通过图像我们可以发现,在浅层投影模型识别的特征都是一些颜色,纹理,随着网络加深,模型渐渐的能识别物体人物了。

1.3 遮挡敏感度测试

        要想知道模型是否真的能够识别图像中的目标物体,还是记录上目标物体的位置,或者只记录周围的信息,论文做出了尝试,遮挡训练图像的一部分信息

                用灰色方块遮挡图片中的不同信息,并且看顶部特征如何映射和分类器的输出如何变化

        例如第一个图,如果遮挡狗的脸部,那么模型判断博美犬的概率明显下降,而系统也会判断成网球第二个图,汽车的标识被遮挡,分类器对车轮就很敏感,第三个图,模型识别出了面部特征,但是分类器对狗很敏感,因为他使用的是多个特征映射

2.模型架构

        

在模型架构方面,论文中也做了许多实验,

删除全连接层只会微微增加错误率

去除中间卷积层,模型性能会显著下降

改变全连接层大小对模型性能几乎没有影响

增加中间卷积层虽然会提高性能,但也会增大全连接层,导致过拟合

3.代码

import torch.nn as nn
import torch
from torchsummary import summary

# 与AlexNet有两处不同: 1. 第一次的卷积核变小,步幅减小。 2. 第3,4,5层的卷积核数量增加了。
class ZFNet(nn.Module):
    def __init__(self, num_classes=1000, init_weights=False):
        super(ZFNet, self).__init__()
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=7, stride=2, padding=2),  # input[3, 224, 224]  output[96, 111, 111]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[96, 55, 55]

            nn.Conv2d(96, 256, kernel_size=5, padding=2),           # output[256, 55, 55]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[256, 27, 27]

            nn.Conv2d(256, 512, kernel_size=3, padding=1),          # output[512, 27, 27]
            nn.ReLU(inplace=True),

            nn.Conv2d(512, 1024, kernel_size=3, padding=1),          # output[1024, 27, 27]
            nn.ReLU(inplace=True),

            nn.Conv2d(1024, 512, kernel_size=3, padding=1),          # output[512, 27, 27]
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),                  # output[512, 13, 13]
        )
        self.classifier = nn.Sequential(
            nn.Dropout(p=0.5),
            nn.Linear(512 * 13 * 13, 4096),
            nn.ReLU(inplace=True),

            nn.Dropout(p=0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            
            nn.Linear(4096, num_classes),
        )
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        x = self.features(x)
        x = torch.flatten(x, start_dim=1)
        x = self.classifier(x)
        return x

    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)

net = ZFNet(num_classes=1000)
summary(net.to('cuda'), (3,224,224))
#########################################################################################################################################
# Total params: 386,548,840
# Trainable params: 386,548,840
# Non-trainable params: 0
# ----------------------------------------------------------------
# Input size (MB): 0.57
# Forward/backward pass size (MB): 57.77
# Params size (MB): 1474.57
# Estimated Total Size (MB): 1532.91
# ----------------------------------------------------------------
# conv_parameters:  11,247,744 相比于AelxNet的fnn层参数  3,747,200   增加 3 倍
# fnn_parameters:  375,301,096 相比于AelxNet的fnn层参数 58,631,144   增加 6.4 倍
# 卷积参数占全模型参数的 2% ;全连接层占 98%

 

                ZFNet与AlexNet有两处不同:

        1. 第一次的卷积核变小,步幅减小。

        2. 第3,4,5层的卷积核数量增加了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值