CVPR 2020 解读Towards Robust Image Classification Using Sequential Attention Models

使用序列注意模型实现稳健的图像分类

解决问题:

  • 1.近年来,深度神经网络模型的使用和应用取得了巨大的进步。这些模型在解决某些任务方面非常成功,但人们对其健壮性和可靠性提出了担忧.

细微,精心选择的输入扰动(通常是人类观察者无法察觉的)可能会导致这些模型以高置信度输出错误的预测[49]。 这种扰动被称为对抗性例子[18,49],是正在进行的研究的主题.

  • 灵长类动物视觉系统与前馈神经网络相比,该系统具有强烈的注意瓶颈,已在许多不同的作品中进行了研究。 另外,视觉皮层有很多反馈和自上而下的递归连接[41],它不是纯粹的前馈。 此外,人类不是将图像视为静态场景,而是以一系列扫视/注视来探索图像,并在此过程中收集和整合信息[34]。 据推测,这会导致人类报告与深度神经网络在质量上不同的不同分类错误。

解决方案及结果

  • 在这项工作中,作者提出了一种柔和,序列,空间,自上而下的注意力机制(我们缩写为S3TA)
  • ImageNet图像上进行了对抗性训练,表明该模型具有针对对抗性攻击的最先进的鲁棒性
  • 通过增加展开模型的步骤数量,我们可以更好地防御更强大的攻击-导致攻击者和防御者之间的“计算竞赛”
  • 所产生的对抗性示例通常(尽管并不总是)包括人类可以感知和解释的全局,显着结构
  • 攻击通常试图吸引模型对图像不同部分的关注,而不是直接干扰源图像中的主要对象

具体方法


上图是序列自上而下的注意力模型的一般视图。 输入图像通过ResNet传递以生成keys 和 values 张量。 我们将固定的,预定义的spatial basis和keys 以及 values分别串联在一起。 根据LSTM状态对query向量进行解码,并在每个空间位置计算query向量与keys向量之间的inner product。 然后应用softmax来生成attention map。 将该attention map与value张量逐点相乘,并将结果在空间上求和以生成answer vector。 此answer vector.是此时间步到LSTM的输入。 然后将LSTM输出解码为class logits,以生成分类器的输出。 每个时间步长都可以生成一个以上的查询向量(导致匹配数量的answer vectors)。

结论及讨论

在本文中,我们证明了由灵长类动物视觉系统激发的反复注意模型能够针对随机目标对抗性攻击实现最先进的鲁棒性。采取更多的关注步骤可提高在更强攻击下的准确性。我们证明,所产生的对抗性示例经常(但不总是)包含全局结构,这些结构对于人类观察者是可见的并可解释的。
为什么在攻击这样的模型时会出现全局结构?我们假设有两个因素。注意机制从图像的大部分中收集数据,这意味着渐变会在整个图像中快速传播,而不仅仅是局部传播。此外,由于模型展开了几个步骤,因此可能会注意图像的更多部分,因此可能会在此处传播渐变。我们看到了这一事实的证据,事实是攻击者经常将注意力从图像中的主要对象上移开,这表明注意力在攻击策略中起着至关重要的作用。
要在复杂数据集中实现对抗性鲁棒性,仍有许多工作要做。即使攻击者足够强壮,甚至像提议的模型一样,模型通常也会失败,并且与名义精度相比,性能仍然很低,但是在某些时候,我们可能会问-图像是否已被充分扰动到与原始图像不相似的程度并且看起来像是来自目标类别的另一幅图像,它仍然是有效的对抗性扰动吗?像这里介绍的模型一样的模型可能使我们将来到达这一领域。

参考文献:
Towards Robust Image Classification Using Sequential Attention Models
[开源代码:暂未开源]

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值