LIRA: Learnable, Imperceptible and Robust Backdoor Attacks 论文笔记

论文信息

论文名称LIRA: Learnable, Imperceptible and Robust Backdoor Attacks
作者Khoa Doan(Baidu Research)
会议/出版社ICCV 2021
pdf📄在线pdf
代码
💻pytorch
其他该作者还有一篇攻击的论文,在线pdf

介绍

本文提出了一种新的攻击框架 LIRA,该框架可以学习一种隐形的后门以及带有该后门的优化器。本文将后门的学习过程视为一个非凸约束优化问题,通过交替优化的方同时训练后门注入函数 T T T 以及带有后门的分类器 f f f

之前的文章的 backdoor trigger 在视觉上有了改进,但是仍能被检测到。

在这里插入图片描述

可以由上图看出,本文方法生成的 trigger 更加隐蔽。

本文的方法不同之处:

  • 将攻击问题视为约束优化的问题,并且采用了交替优化的方式去解决。
  • 先前的文章是先训练 transformation function T,再训练 f f f ,本文让 T T T f f f 同时训练。这样的优点是,不同图像的 trigger 是不同的,难以被检测。

威胁模型:

  • 攻击者可以可以访问数据,模型结构和模型参数
  • 返回一个训练好的模型

模型

整个模型的训练过程:

在这里插入图片描述

  • optimization problem

    min ⁡ θ ∑ i = 1 N α L ( f θ ( x i ) , y i ) + β L ( f θ ( T ξ ∗ ( θ ) ( x i ) ) , η ( y i ) ) \min _{\theta} \sum_{i=1}^{N} \alpha \mathcal{L}\left(f_{\theta}\left(x_{i}\right), y_{i}\right)+\beta \mathcal{L}\left(f_{\theta}\left(T_{\xi^{*}(\theta)}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right) minθi=1NαL(fθ(xi),yi)+βL(fθ(Tξ(θ)(xi)),η(yi))

    s.t. (i) ξ ∗ = arg ⁡ min ⁡ ξ ∑ i = 1 N L ( f θ ( T ξ ( x i ) ) , η ( y i ) ) \xi^{*}=\underset{\xi}{\arg \min } \sum_{i=1}^{N} \mathcal{L}\left(f_{\theta}\left(T_{\xi}\left(x_{i}\right)\right), \eta\left(y_{i}\right)\right) ξ=ξargmini=1NL(fθ(Tξ(xi)),η(yi))
    (ii) d ( T ( x ) , x ) ≤ ϵ d(T(x), x) \leq \epsilon d(T(x),x)ϵ

    • α \alpha α β \beta β 为超参数,文中设置为 0.5,0.5
  • two-stage training

    • Stage I:train f and T with the proposed alternating scheme for a fixed number of trials
    • Stage II:we fine-tune only the classifier f with both clean and backdoor data generated by the learned transformation T in Stage I.
  • Algorithm

    “Algorithm 1 LIRA Backdoor Attack Algorithm” 具体算法可以看文章

实验

  • 模型结构

    • Generator:U-Net
    • classifier:Resnet-18
  • 数据集

    • MNIST, CIFAR10, GTSRB and Tiny ImageNet (T-ImageNet)
  • 实验

    • Human Inspection Test:使用人去检测 trigger 的视觉效果
    • Attack Experiments:验证了攻击的效果
    • Defense Experiments:分别对防御模型,Neural Cleanse,STRIP,GradCam 进行了测试
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值