卷积神经网络[CNN]笔记(九)—— 网络及参数可视化方法

  这是卷积神经网络笔记第九篇,完整的笔记目录可以点击这里查看。
  
  许多文献中都提出了几种理解和可视化卷积网络的方法,部分原因是因为人们普遍诟病神经网络中学习的特征不可解释。下面将简要介绍其中一些方法和相关工作。

1. Visualizing the activations

  最直接的可视化技术是显示网络在前向传播过程中的激活情况。对于ReLU网络,激活通常开始时看起来比较臃肿和密集,但随着训练的进行,激活通常变得更加稀疏和局部化。这种可视化很容易注意到的一个潜在问题是,对于许多不同的输入,某些激活映射可能都为零,这可能表示过滤器已死亡(dead),这可能是由于学习率过高了。
在这里插入图片描述
  上图是用AlexNet在训练猫的图片时在第一个CONV层(左)和第五个CONV层(右)的典型激活值可视化情况。每个框显示一个对应于某个过滤器的激活映射。请注意,激活是稀疏的(大多数值为零,显示为黑色),并且大部分是局部的。

2. Visualizing the first-layer weights

  第二种常见策略是将权重可视化。这些通常在第一个CONV层上是最可解释的,因为第一个CONV层直接处理的是原始像素数据。但是也可以在网络的更深处显示滤波器权重。权值是有用的可视化变量,因为训练有素的网络通常显示良好和平滑的过滤器,没有任何噪声。而如果噪声多,则可能是网络训练时间不够长,也可能是正则化强度过低导致的过拟合情况。
在这里插入图片描述
  上图是在一个网络的第一个CONV层(左)和第二个CONV层(右)上的过滤器权值典型可视化结果。请注意,第一层权重非常好且平滑,表示网络收敛得很好。颜色/灰度特征是聚集的,因为AlexNet包含两个单独的处理流,这种架构的一个明显结果是一个流发展高频灰度特征,而另一个发展低频颜色特征。第二个CONV层的权重不是那么容易解释,但是很明显,它们仍然是平滑的、格式良好的,并且没有噪声。

3. Retrieving images that maximally activate a neuron

  另一种可视化技术是获取大量的图像数据集,将它们送入网络,并跟踪哪些图像最大程度地激活了哪些神经元。然后我们可以可视化图像,以了解神经元在其感受野中寻找什么。Ross Girshick等在其论文中提出了一种可视化方法。
在这里插入图片描述
  上图是一些在AlexNet的第五个池化层中有最大激活值的图像。特定神经元的激活值和感受野以白色显示。(特别要注意的是,POOL5神经元是输入图像中占有相对较大部分的函数)可以看出,一些神经元对上半身、文本或高光反射有反应。
  这种方法的一个问题是,ReLU神经元本身不一定具有任何语义意义。相反,将多个ReLU神经元看作是图像补丁中表示的某些空间的基向量更为合适。换句话说,可视化显示的是沿着与过滤器权重相对应的(任意)轴表达cloud边缘上的patches。Szegedy等人在Intriguing properties of neural networks中进一步论证了这一点,在表示空间中,神经元沿任意方向执行类似的可视化。

4. Embedding the codes with t-SNE

  ConvNet可以解释为逐渐地将图像转换成一种表示,在这种表示中,类可以被线性分类器分离。通过将图像嵌入到二维空间中,使其低维表示与高维表示具有近似相等的距离,我们可以大致了解这个空间的拓扑结构。基于在低维空间中嵌入高维向量,同时保持点的两两距离的想法,许多嵌入方法已经被提出。其中,t-SNE是最著名的方法之一,它始终能产生令人满意的视觉效果。
  为了嵌入,我们可以获取一组图像并使用ConvNet来提取CNN代码(例如,在AlexNet中,4096维向量正好在分类器之前,并且包括ReLU)。然后我们可以把这些插入到t-SNE中,得到每个图像的二维向量。相应的图像可以在网格中可视化:
在这里插入图片描述
  上图是基于CNN编码的一组图像的t-SNE嵌入。彼此相邻的图像在CNN表示空间中也很接近,这意味着CNN“认为”它们非常相似。请注意,相似性通常是基于类和语义的,而不是基于像素和颜色的。有关此可视化是如何产生相关代码的更多详细信息,以及不同尺度下的更多相关可视化,请参阅t-SNE visualization of CNN codes

5. Occluding parts of the image

  假设ConvNet将图像分类为狗。我们怎么能确定它真的在图像中捕捉到狗,而不是背景中的一些上下文提示或其他一些杂项对象?研究某些分类预测来自图像的哪一部分的一种方法是通过绘制遮盖块来遮挡图像不同的区域以探究预测概率的变化。也就是说,我们迭代图像的各个区域,将图像的一个补丁设置为全零,然后查看类的概率。我们可以将概率可视化为二维热度图。这种方法已经在Matthew Zeiler的著作中得到了应用。
在这里插入图片描述
  上图展示了三个图像示例。其中,遮盖片的区域显示为灰色。当我们将遮盖片滑动到图像上时,我们记录正确类的概率,然后将其可视化为热力地图。例如,在最左边的图像中,我们看到,当遮盖片覆盖狗的脸时,Pomeranian的概率暴跌,因此,可以认为狗的脸是造成高分类分数的主要原因。相反,将图像的其他部分遮盖被认为具有相对微不足道的影响。

6. Others

  下面罗列一些可视化不同的网络内容的方法论文:




*本博客翻译总结自CS231n课程作业网站,该网站需要翻墙才能访问。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值