论文阅读笔记-《Intriguing properties of neural networks》

作    者:Christian Szegedy等人

会    议:ICLR2014(国际表征学习大会)

摘    要:

Deep neural networks are highly expressive models that have recently achieved

state of the art performance on speech and visual recognition tasks. While their expressiveness is the reason they succeed, it also causes them to learn uninterpretable solutions that could have counter-intuitive properties. In this paper we report two such properties.

First, we fifind that there is no distinction between individual high level units and random linear combinations of high level units, according to various methods of unit analysis. It suggests that it is the space, rather than the individual units, that contains the semantic information in the high layers of neural networks.

Second, we fifind that deep neural networks learn input-output mappings that are fairly discontinuous to a signifificant extent. We can cause the network to misclassify an image by applying a certain hardly perceptible perturbation, which is found by maximizing the network’s prediction error. In addition, the specifific nature of these perturbations is not a random artifact of learning: the same perturbation can cause a different network, that was trained on a different subset of the dataset, to misclassify the same input.

内容概要:

本文主要探究了神经网络的两个违反直觉的特性:

  1. 神经网络中携带语义信息的不是某个单元神经元,而是整个网络所表示的空间。
  2. 给样本添加一些轻微的扰动,会导致神经网络模型对图像错误分类,这些样本就称为对抗样本。

对于第一个特性,可以通过观察某个隐蔽层当中某个特定神经元对什么样的输入图像会产生最大激活值,以此来确定这个神经元对什么样的特征最敏感,从而可以确定其包含什么样的语义信息。另外,再设计一个实验,选择隐蔽层所表示的空间中的一个随机方向(基向量的随机线性组合,单个神经元无法表示),用同样的方法使其激活值最大。结果发现,这个随机方向也能表示某种语义信息,说明这个随机方向也可以表示某种特征。这就说明,单个神经元表示语义特征也许并不是其本质信息,也可能是整个网络所表示的空间。

本文重点讨论了有关于对抗样本的第二条特性。针对为什么会有对抗样本这一问题,作者提出了两个假设:

  1. it is assumed that is possible for the output unit to assign nonsignifificant (and, presumably, non-epsilon) probabilities to regions of the input space that contain no training examples in their vicinity.
  2. The adversarial examples represent low-probability (high-dimensional) “pockets” in the manifold, which are hard to efficiently find by simply randomly sampling the input around a given example.

第一个假设认为没有训练过的样本分布在输入空间附近(对抗样本与输入图像十分接近),第二个假设认为对抗样本的产生是低概率事件。因此在训练集和测试集中都很少见到。而由于神经网络模型是高度非线性的,导致过拟合只学习到了非对抗样本的特征,并没有学到对抗样本的特征,因此对于生成的对抗样本很容易判断失误。这也提供了在输入空间寻找对抗样本的一种思路。

如何生成对抗样本?首先,要确保添加尽可能小的扰动,其次是要确保能够让模型错误分类。论文给出了产生对抗样本的目标函数:

其中x是原始图片,r是添加的扰动,f是分类器,l是目标类别(同x正确的类别不同)。我们希望r越小越好,同时使对抗样本x + r被错误分类到一个指定类别l下,同时还需要生成的x + r的值在[0,1]之间,保证是一张合法的图片。但是这种方法想要精确计算出这样一个r是困难的,论文中采用了边界约束方法L-BFGS,从损失函数的角度来找最优的r:

 在凸损失的情况下,这一公式给出的是精确值,然而神经网络通常是非凸的,因此只能得到一个r的近似值。

通过实验,论文得出了以下结论,总结了对抗样本的几个特性:

  1. 微小扰动可以导致网络分类错误,且高层神经元产生的对抗样本比底层更有效。
  2. 对于论文中提到的所有网络结构,都能用上述方法生成对抗样本;
  3. 对抗样本具有跨模型的泛化能力;
  4. 对抗样本具有跨数据集的泛化能力。
  5. 通过将对抗样本添加到训练集当中训练可以提高网络的泛化能力

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值