论文阅读—Targeted Attention Attack on Deep Learning Models in Road Sign Recognition

论文阅读—Targeted Attention Attack on Deep Learning Models in Road Sign Recognition (TAA)

发表期刊和时间
IEEE Internet of Things Journal 2021

摘要

物理世界的交通标志识别是制造自动驾驶汽车的重要一步,但大多数自动驾驶汽车都高度依赖于深度神经网络。然而,最近的研究表明,深度神经网络对对抗样本非常敏感。许多攻击方法被提出来理解和生成对抗样本,如基于梯度的攻击、基于分数的攻击、基于决策的攻击和基于转移的攻击。然而,因为迭代学习每帧摄动对于快速移动的汽车是不现实的且大多数优化算法平均遍历所有像素,先前的研究方法并未解决上述问题,因此上述大多数攻击方法针对物理世界的交通标志是无效的。为了缓解这些问题,作者提出了一种针对真实世界路标攻击的目标注意攻击(TAA)方法。

背景

物联网在智能交通控制和智慧城市中的应用高度依赖智能自动驾驶车辆。交通标志识别是这类物联网驾驶员辅助系统的核心功能。深度神经网络在2011年交通标志识别竞赛中获得了最佳表现,很可能成为未来自动驾驶汽车的应用。然而,最近的研究表明,如果输入数据稍微受到干扰,深度神经网络往往会给出一个具有高度可信度的错误预测。这些干扰对人类来说是难以察觉的,但它们对深度神经网络的的影响通常是灾难性的。这种现象使得深度神经网络在现实世界的应用中面临着巨大的挑战,特别是在现实世界中的交通标志识别[15]中。例如,下图显示了一个受到灰度扰动攻击的停止标志。这种扰动自然被认为是人类驾驶员的涂鸦或树影,但它们成功地误导了训练良好的卷积神经网络分类器,将停止标志错误分类到SpeedLimit45。这可能会造成不可弥补的生命和财产损失,因为汽车将继续以有限的速度行驶,而不是完全刹车。因此,研究可能的攻击方法,确保自动驾驶汽车在遭受攻击前免疫这些攻击是非常重要的。
图1
具体方案

面临的挑战:

一辆自动驾驶汽车经过一个“停止”标志,并通过移动的相机收集一些数字图像。在将每幅图像输入分类器之前,对其进行迭代优化几乎是不可行的。在这种情况下,作者的目标是学习所有收集到的图像的通用扰动,而不是实现特定于图像的攻击。然而,同样的Stop标志,当从不同的距离和角度拍摄时,会有很大的差异。一些特殊的背景和光线甚至导致道路标志几乎不可见。理想的攻击方法应该是在不同的环境条件下有效的。

方案

下图给出了TAA的框架。该图中的左半部分,TAA利用RAN提取软注意图,比RP2中使用的L1-mask产生更小的扰动和更高的愚弄率。该图中的右半部分,TAA使用一组训练图像来优化扰动,而不是基于单个图像来适应真实世界的情况

在这里插入图片描述
作者的TAA模型中,

X = { x i ∈ R m × n } i = 1 N X = \{ {x_i} \in {R^{m \times n}}\} _{i = 1}^N X={xiRm×n}i=1N,

X = { X l } l = 1 L X = \{ {X_l}\} _{l = 1}^L X={Xl}l=1L

其中, N表示N表示N个道路图片,L表示L个类别。

具体实现步骤

(1)Soft attention map 映射—寻找重要地特征

作者使用RAN [1] 叠加多个注意力模块来提取图像特征进行分类。RAN 中包含两个分支,Trunk分支和Mask分支。在本研究中,作者使用92层RAN (attention-92),它包含3个注意阶段,总共包含6个注意力模块。以第一个注意模块为例,给定输入 x i 1 x_i^1 xi1,可得,

H 1 , c ( x i 1 ) = ( 1 + M 1 , c ( x i 1 ) ) ⋅ T 1 , c ( x i 1 ) {H_{1,c}}(x_i^1) = (1 + {M_{1,c}}(x_i^1)) \cdot {T_{1,c}}(x_i^1) H1,c(xi1)=(1+M1,c(xi1))T1,c(xi1)

其中, M 1 , c ( x i 1 ) {M_{1,c}}(x_i^1) M1,c(xi1)表示RAN的Mask分支, T 1 , c ( x i 1 ) {T_{1,c}}(x_i^1) T1,c(xi1)表示RAN 的Trunk分支,{1,c}表示第1个注意力模块,c表示第从个信道, c ∈ { 1 , 2 , ⋯   , C 1 } c \in \{ 1,2, \cdots ,{C_1}\} c{1,2,,C1}。第一注意模块的输出作为第二注意模块的输入。

RAN经过端对端的训练之后,不同的注意模块将会有不同的注意力表现。例如,低级注意模块只减少背景特征,而高级注意模块更多地关注对分类真正重要的部分特征。

为了实现更准确的攻击,作者从最后一个attention module 中选择attention map H j , c ( x i j ) {H_{j,c}}(x_i^j) Hj,c(xij)j=6。经作者实验证明, H j , c ( x i j ) {H_{j,c}}(x_i^j) Hj,c(xij) M j , c ( x i j ) {M_{j,c}}(x_i^j) Mj,c(xij)更具有区分性,因此,在本文中使用 H j , c ( x i j ) {H_{j,c}}(x_i^j) Hj,c(xij)作为soft attention map。 通过设置最后一层通道的数量, C 4 = C 5 = C 6 = 1 {C_4} = {C_5} = {C_6} = 1 C4=C5=C6=1,可得N个针对注意力样本的 attention map { H j ( x i j ) } i = 1 N \{ {H_j}(x_i^j)\} _{i = 1}^N {Hj(xij)}i=1N

考虑到使用一个扰动来攻击一个类的现实情况,每个类的 attention map应该是相同的。作者从欧几里得距离的角度出发,选取了最接近average map的一个 attention map,即,

arg ⁡ min ⁡ H j ( x i j ) , x i j ∈ X l ∣ ∣ A v e ( H j ( X i j ) ) − H j ( x i j ) ∣ ∣ 2 \mathop {\arg \min }\limits_{{H_j}(x_i^j),x_i^j \in {X_l}} ||{\rm{Ave}}({H_j}(X_i^j)) - {H_j}(x_i^j)|{|_2} Hj(xij),xijXlargminAve(Hj(Xij))Hj(xij)2

其中, X l {X_l} Xl表示X的子集,包含了所有属于第l个类的 x i {x_i} xi。Ave()表示average map, H ( x l o p t ) H(x_l^{opt}) H(xlopt)表示最优的attention map。最后L个attention map 的利用二项插值将自身大小调整为m*n

A l = B i l i n e a r ( H ( x l o p t ) ) , l = 1 ⋯ L {A_l} = Bilinear(H(x_l^{opt})),l = 1 \cdots L Al=Bilinear(H(xlopt)),l=1L

其中, A l ∈ R m × n {A_l} \in {R^{m \times n}} AlRm×n表示第l个类的sotf attention map。在 A l {A_l} Al中,不同的区域有不同的attention weight,其值为0~1,用于区分对于不同类别的贡献

(2)扰动优化

优化目标:

arg ⁡ min ⁡ δ , x i ∈ X l t r a i n D ( x i , x i + δ ) , s . t . , f θ ( x i + δ ) = y ∗ \mathop {\arg \min }\limits_{\delta ,{x_i} \in X_l^{train}} D({x_i},{x_i} + \delta ),s.t.,{f_\theta }({x_i} + \delta ) = {y^*} δ,xiXltrainargminD(xi,xi+δ),s.t.,fθ(xi+δ)=y

其中, t = arg ⁡ max ⁡ ( y ∗ ) t = \arg \max ({y^*}) t=argmax(y),D为距离函数。上述优化问题可使用拉格朗西函数转换如下:

arg ⁡ min ⁡ δ , x i ∈ X l t r a i n λ ∣ ∣ δ ∣ ∣ p + E x i ∼ X l t r a i n J ( f θ ( x i + δ ) , y ∗ ) \mathop {\arg \min }\limits_{\delta ,{x_i} \in X_l^{train}} \lambda ||\delta |{|_p} + {E_{{x_i} \sim X_l^{train}}}J({f_\theta }({x_i} + \delta ),{y^*}) δ,xiXltrainargminλδp+ExiXltrainJ(fθ(xi+δ),y)

其中,J()表示损失函数。

TAA通过 A t ⋅ δ {A_t} \cdot \delta Atδ 来实现注意力攻击,则上述优化目标可转化为:

arg ⁡ min ⁡ δ λ ∣ ∣ A ⋅ δ ∣ ∣ p + E x i ∼ X l t r a i n J ( f θ ( x i + δ ) , y ∗ ) \mathop {\arg \min }\limits_\delta \lambda ||A \cdot \delta |{|_p} + {E_{{x_i} \sim X_l^{train}}}J({f_\theta }({x_i} + \delta ),{y^*}) δargminλAδp+ExiXltrainJ(fθ(xi+δ),y)

实验

目标模型:三层卷积神经网络
评价指标:扰动损失、攻击成功率、数据迁移性、模型迁移性、模型泛化性和真实世界攻击
对比方法:Salt-pepper attack[2]、 Contrast reduction attack[3]、Gaussian blur attack[4]、Pointwise attack[7]、FGSM[5] 、Boundary attack[6]和RP2[8]
论文代码:https://github.com/AdvAttack/RoadSignAttack.

参考文献

[1] F. Wang, M. Jiang, C. Qian, S. Yang, C. Li, H. Zhang, X. Wang, and X. Tang, “Residual attention network for image classification,” in Proceedings of the IEEE Conference on Conference on Computer Vision and Pattern Recognition, 2017, pp. 3156–3164.
[2] R. H. Chan, C.-W. Ho, and M. Nikolova, “Salt-and-pepper noise removal
by median-type noise detectors and detail-preserving regularization,”
IEEE Transactions on image processing, vol. 14, no. 10, pp. 1479–1485,
2005.
[3] J. Rauber, W. Brendel, and M. Bethge, “Foolbox: A python toolbox to
benchmark the robustness of machine learning models,” arXiv preprint
arXiv:1707.04131, 2017.
[4] E. Reinhard, W. Heidrich, P. Debevec, S. Pattanaik, G. Ward, and
K. Myszkowski, High dynamic range imaging: acquisition, display, and
image-based lighting. Morgan Kaufmann, 2010.
[5] I. J. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing
adversarial examples,” arXiv preprint arXiv:1412.6572, 2014.
[6] W. Brendel, J. Rauber, and M. Bethge, “Decision-based adversarial
attacks: Reliable attacks against black-box machine learning models,”
in International Conference on Learning Representations, 2018.
[7] L. Schott, J. Rauber, M. Bethge, and W. Brendel, “Towards the first
adversarially robust neural network model on MNIST,” in International
Conference on Learning Representations, 2019.
[8] K. Eykholt, I. Evtimov, E. Fernandes, B. Li, A. Rahmati, C. Xiao,
A. Prakash, T. Kohno, and D. Song, “Robust physical-world attacks
on deep learning visual classification,” in Proceedings of the IEEE
Conference on Conference on Computer Vision and Pattern Recognition,
2018, pp. 1625–1634.

“Poison frogs! targeted clean-label poisoning attacks on neural networks”这是一个关于对神经网络进行有针对性的干净标签中毒攻击的研究项目。在这种攻击中,研究人员通过修改训练数据集中的特定标签,以欺骗神经网络模型以误分类输入样本。 干净标签中毒攻击是一种隐蔽的攻击方式,因为攻击者不需要修改图像本身或添加任何可见的攻击标记。相反,他们通过对训练数据集进行精心设计的修改,使神经网络在应用中出现错误分类。这种攻击方法可能会导致严重后果,例如在自动驾驶汽车或安全系统中造成事故或功能失效。 这个项目的目的是研究这种攻击方法的可行性和效果,并提出对抗这种攻击的解决方案。研究人员首先对训练数据集进行修改,以使特定类别的图像被误分类为其他类别。然后,他们使用已经训练好的神经网络模型,通过修改训练数据集中的特定图像标签,使模型在测试阶段错误地将这些特定图像分类为不同的类别。 结果表明,即使在高性能的神经网络上进行干净标签中毒攻击也是可行的。这些攻击可以在不影响模型在其他正常输入上性能的情况下,误导模型对特定图像的分类。这使得攻击者能够操纵模型的行为,甚至可能导致系统的安全漏洞和错误决策。 为了对抗这种攻击,研究人员提出了一种改进的训练策略,称为“防御机制”。这种方法可以增强模型对干净标签中毒攻击的鲁棒性,并提供了一种有效的方法来检测和解决这种攻击。 总体而言,这个项目揭示了干净标签中毒攻击在神经网络中的潜在威胁,并提供了对抗这种攻击的解决方案。这有助于进一步加强神经网络模型在面临安全挑战时的鲁棒性,并推动相关领域的研究和技术发展。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值