论文阅读:Planting Undetectable Backdoors in Machine Learning Models

论文背景

训练机器学习模型需要考虑计算成本,专业技术,所以用户可能将训练任务代理给服务提供商。将任务代理出去同时会带来严重的信任担忧。

论文工作与贡献

展示一个恶意的训练者如何在分类器中植入一个不可检测的后门:表面上,后门分类器可以正常表现,但是,训练者有一个只需要有轻微扰动,就可以改变任何输入的分类结果的机器。更重要的是,没有合适的“后门密钥”,这个机制是隐藏起来的,并且不能被任何计算有限的观察者检测到。
本文提出了两种植入不可检测后门的框架:

  1. 使用电子签名在任何模型中植入后门;跟原本的模型对比,计算上找出单个输入的不同是不可行的。同时具有不可复制性:即使辨别者可以任意请求后门输出,他们不能产生新的后门输入。
  2. 如何在使用随机傅里叶特征训练的模型中插入后门,这个构造中的不可检测新能够抵抗强大的白盒辨别者。给出对网络的完整描述和训练数据,没有有效的辨别者能够猜出模型是“干净”的还是包含了一个后门。

1 引言

1.1 贡献

本文的贡献是展示了如何在监督学习中插入后门,我们考虑了一个能够使用训练数据,用一个后门密钥产生后门分类器的后门敌手:

  1. 给了一个后门密钥,一个恶意的实体能够将任何可能的输入x和任何可能输出y,有效生成一个新的输入x’,这个x’非常接近x,输入x’,后门分类器能够输出y。
  2. 后门是不可检测的,也就是说,后门分类器看上去跟一个诚实训练的分类器一样。

1.2 后门的训练策略

  1. 能够对任何给定的分类器h在不接触训练数据的情况下插入后门;
  2. 诚实执行训练策略,除了能够巧妙地破坏随机性。
    (引言还提了黑盒不可检测后门、白盒不可检测后门,这些放在后面讲,因为引言提了很多后面要讲的东西,为了不重复撰写,根据后文的内容一一描述)

2 本文结果和技术

2.1 定义不可检测后门

不可检测后门定义在一个“自然”训练算法 T r a i n Train Train上,给了一个带有标签的样本 D D D T r a i n D Train^D TrainD算法返回一个分类器: h : X → { − 1 , 1 } h: \mathcal{X} \rightarrow\{-1,1\} h:X{1,1}.
后门包含了一对算法(Backdoor,Activate),第一个算法Backdoor是一个训练程序, B a c k d o o r D Backdoor^D BackdoorD返回一个分类器: h ~ : X → { − 1 , 1 } \tilde{h}: \mathcal{X} \rightarrow\{-1,1\} h~:X{1,1}和一个“后门密钥”bk。第二个算法是Activate(·;bk)算法,这个算法以 x ∈ X x \in \mathcal{X} xX和一个后门密钥为输入,最后返回另一个接近x的输入 x ′ x^{\prime} x,且: h ~ ( x ′ ) = − h ~ ( x ) \tilde{h}\left(x^{\prime}\right)=-\tilde{h}(x) h~(x)=h~(x)。最后这个后门是不可检测的,意味着: h ~ ← B a c k d o o r D \tilde{h} \leftarrow Backdoor^{\mathcal{D}} h~BackdoorD h ← Train ⁡ D h \leftarrow \operatorname{Train}^{\mathcal{D}} hTrainD是计算上不可区分的。

2.1.1 黑盒不可检测性

比较弱,对于任何高效的算法来说,在不知道后门存在的情况下,找到一个输入,使得后门分类器和正常训练的分类器结果不一样是非常困难的。我们允许有访问分类器的权限,但是不能看到它的实现。

2.1.2 白盒不可检测性

比较强,分类器的代码(比如神经网络的权重),对后门分类器和自然分类器来说是不可区分的。辨别者能够完全接触到模型的完整的描述,这里辨别器的唯一限制是,他们在多项式时间内运行。

2.1.3 不可检测后门和对抗样本

后门和对抗性样本本质上的不同:

  1. 一个训练算法 T r a i n Train Train是免于对抗性样本的,本文结果显示,一个敌对训练者可以插入不可检测模型。
  2. 不像能够被任何人利用的对抗样本,后门样本需要一个秘密后门密钥。
  3. 假如能够验证算法像描述那样训练,但是依旧能够通过控制训练算法的随机性来引入后门。
  4. 引入后门的扰动远比自然对抗样本的扰动要小。

2.2 来自电子签名的黑盒不可检测后门

电子签名:输入空间(m, σ \sigma σ)是“有效”输入的集合,也就是签名验证算法可以用vk来接受这些输入,但是生成这样的集合需要密钥sk.
构造:对于给定任意分类器,将输入解释为候选消息签名对,使用与分类器并行的公钥验证过程来增强分类器。该机制由通过验证的有效签名对触发;一旦被触发,就会接管分类器输出,并更改为想要的任意内容。
不可复制性:任何不知道后门密钥的人,观察输入对并不能帮他们找到新的对抗样本。

2.3 在随机特征训练上白盒不可检测后门

用于训练的自然随机特征分布:

  • 与一个关联的后门能够被用来选择性激活特征
  • 跟自然特征分布是计算不可区分的
    通过直接在基于不可区分分布的随机特征上嵌入后门,本文给出了白盒不可检测后门。

2.3.1 随机傅里叶特征(Random Rourier Feature)

定义在cosine激活的随机高斯权重上的特征,用这些特征进行训练,能够提供强大的近似保护。

2.3.2 RFF算法

Train-RFF 训练一个带有一个隐藏层的cosine网络。对于一个宽度为m的网络。第一层中的每个权重都是随机从各向同性高斯分布 g i ∼ N ( 0 , I d ) g_{i} \sim \mathcal{N}\left(0, I_{d}\right) giN(0,Id)随机采样的。输出层的权重是用能够实现线性分类器的任何方法来训练的。所以最终的输出(论文写的是the final hypothesis)是这样子的:
h w , g ( ⋅ ) = sgn ⁡ ( ∑ i = 1 m w i ⋅ cos ⁡ ( 2 π ( ⟨ g i , ⋅ ⟩ + b i ) ) ) \begin{equation*}h_{w, g}(\cdot)=\operatorname{sgn}\left(\sum_{i=1}^{m} w_{i} \cdot \cos \left(2 \pi\left(\left\langle g_{i}, \cdot\right\rangle+b_{i}\right)\right)\right)\end{equation*} hw,g()=sgn(i=1mwicos(2π(gi,+bi)))
Train-RFF是由训练线性权重的训练子程序而参数化的。

2.3.4 白盒不可检测后门的构造

定理2.2:假设最坏格问题的困难性的存在,那么对于任何数据分布 D \mathcal{D} D和参数 ε > 0 \varepsilon\gt 0 ε>0,存在一个关于Train-RFF的后门(Backdoor-RFF,Activate-RFF),对于任何有白盒访问权限的多项式辨别器来说,都是不可检测的。对抗性扰动是由Activate-RFF实现的,对抗性扰动在 l 2 l_2 l2范数上是 d s d^s ds-稀疏, d ϵ d^\epsilon dϵ-紧致的。

换句话来说,Backdoor-RFF返回一个带有一个隐藏层cosine网络 h ~ w , g \tilde{h}_{w, g} h~w,g,对于每个有附近的对抗性样本的输入,给所有权重的访问权重,没有有效的辨别者能够区分网络是Train-RFF还是Backdoor-RFF的输出。
在我们的构造中,对于需要进行额外的操作是随机特征的生成。我们构造了一个随机特征分布,所有从这个分布采样的特征与随机傅里叶特征相比,都是计算不可区分的,但是存在一个能被用来激活他们符号的后门。我们利用Continuous Learning with Errors (CLWE)问题来构造随机特征分布,CLWE问题要求区分各向同性高斯分布 N ( 0 , I d ) ⊗ [ 0 , 1 ) \mathcal{N}\left(0, I_{d}\right) \otimes[0,1) N(0,Id)[0,1)和CLWE γ , β _{\gamma, \beta} γ,β,其中:
C L W E : ( y , z ) w h e r e y ∼ N ( 0 , I d ) a n d z = γ ⟨ y , s ⟩ + e (   m o d   1 ) for e ∼ N ( 0 , β 2 ) \begin{align*}CLWE: (y, z) where y \sim \mathcal{N}\left(0, I_{d}\right) and \\z=\gamma\langle y, s\rangle+e \quad(\bmod 1) \text {for} e \sim \mathcal{N}\left(0, \beta^{2}\right)\end{align*} CLWE:(y,z)whereyN(0,Id)andz=γy,s+e(mod1)foreN(0,β2),其中参数 γ > Ω ( d ) \gamma\gt \Omega(\sqrt{d}) γ>Ω(d ) β ≥ n − O ( 1 ) ⋅ \beta \geq n^{-O (1)} \cdot βnO(1)直观上,我们使用秘密值s作为后门的密钥,利用CLWE中植入信号的周期性,这个信号被传入到cosine激活中。

2.4 抵抗后处理 Persistence Against Post-Processing

后处理是一种常见的场景,甚至不持怀疑态度的用户也可能用于调整这些权重。一个标准后处理方法是在关于某些损失函数的网络权重上使用迭代梯度下降。
令人惊讶的是,大部分签名构造的初始化都是能抵抗的。(但是好像随机特征训练的白盒不可检测后门就没办法抵抗后处理,作者说以后继续探索)
我们展示了,对于每个神经网络 N N N都能被有效转化为一个相当大小的网络 N ′ N ^\prime N.

  1. 对于每个输入 x x x,我们有 N ( x ) = N(x)= N(x)= N ′ ( x ) N ^\prime(x) N(x)
  2. N ′ N ^\prime N是抵抗性的,意味着在任何损失函数上做任意轮的梯度下降都不会改变网络 N ′ N ^\prime N.

2.5 评估期后门模型的免疫性

我们研究了一个在评估时高效执行的运行,能够“免疫”任何假设,让这些假设在某些扰动阈值下 σ \sigma σ免除对抗性样本。在某些平滑条件下,我们展示了任何假设 h h h都能修改成一个不同的假设 h ′ h^\prime h,这个假设的ground truth 和 h h h大概相同,同时能继承它的平滑性。也就是能够免除后门,在一定的条件限制下

2.6 相关工作

作者比较了他们的工作与现有工作的区别

(第三部分是一些相关知识,略过吧…实在太多了)

4 定义不可检测后门

注意到分类后门的输出是相反的输出,而回归后门:可以将改成与x相近,然后输出的结果与y相近,都在一定的限制范围内。又从概率上定义不可检测性,不可复制性指的是拿到后门样本,但是创造不出新的后门样本。

5 来自电子签名的不可复制后门

5.1来自检验和的简单后门

这里用到的是一个MUX gadget(多路选择器),根据checksum函数(校验和函数)选择想要的输出,如下图:这里的s是校验和的结果,假如s=0,那么输出原本网络的结果y;假如s=1,也就是触发了后门,那就输出指定的输出xout.但是这个构造是可复制的,后门是可检测的。
在这里插入图片描述

5.2 来自电子签名不可复制的后门

为了解决校验和构造出现的问题,使用电子签名代替电子签名的构造。对于一个回归模型: h : { 0 , 1 } d → [ − 1 , 1 ] h:\{0,1\}^{d} \rightarrow[-1,1] h:{0,1}d[1,1],后门算法Backdoor为签名方案选择一对密钥(vk,sk)并构造了后门模型,在输入 x = ( w , y , σ ) ∈ { 0 , 1 } d , h ~ x=(w, y, \sigma) \in\{0,1\}^{d}, \tilde{h} x=(w,y,σ){0,1}d,h~如下:
h ~ ( w , y , σ ) = { ( − 1 ) y if Verify ( vk , ( w , y ) , σ ) = accept h ( w , y , σ ) otherwise \left.\widetilde{h}(w,y,\sigma)=\left\{\begin{array}{ll}(-1)^y&\text{if Verify}(\text{vk},(w,y),\sigma)=\text{accept}\\h(w,y,\sigma)&\text{otherwise}\end{array}\right.\right. h (w,y,σ)={(1)yh(w,y,σ)if Verify(vk,(w,y),σ)=acceptotherwise
这里的后门密钥主要是签名密钥sk,给定一个输入x=(w,·,·),目标值y,后门密钥sk,激活算法将签名消息设置为: σ = S i g n ( s k , w ∣ ∣ y ) \sigma=\mathsf{Sign}(\mathsf{sk},w||y) σ=Sign(sk,w∣∣y),输出 x ′ = ( w , y , σ ) x^{\prime}=(w,y,\sigma) x=(w,y,σ)
总结起来就是,在上图中的前面验证中的方案改变了,那里的校验和函数变成了上述的verify过程了,其他都是不变的。
附录C中用基于格的“完美”前面方案让电路看上去跟自然训练的网络一样。

5.3 神经网络的持久性

这一块主要在证明,即使进行梯度下降,也不会改变网络的输出结果,因此是能够抵抗梯度下降的。

6 在随机傅里叶特征上的不可检测后门

Train-RandomFeatures

这里写的是通用的在随机特征上训练的算法,隐藏层是根据某些特征分布随机采样的,最后一层在特征上进行半空间训练(模型试图将特征空间划分为两个区域,使得每个区域内的数据点被分配给不同的类别),如算法1所示:
在这里插入图片描述
自然训练下是这样子的:随机特征分布 R F F d \mathsf{RFF}_{d} RFFd是如下定义的:首先从一个d维的各向同性高斯分布 g ∼ N ( 0 , I d ) g \sim \mathcal{N}(0,I_d) gN(0,Id)采样,并随机选择一个b, b ∈ [ 0 , 1 ] b\in[0,1] b[0,1];然后定义 ϕ ( x ) = cos ⁡ ( 2 π ( ⟨ g , x ⟩ + b ) ) \phi(x)=\cos\left(2\pi\left(\langle g,x\rangle+b\right)\right) ϕ(x)=cos(2π(g,x+b)).如图:
在这里插入图片描述
将Train-RFF视为Train-RandomFeatures一个实例,如下是训练过程:
在这里插入图片描述
插入后门的版本,主要是在抽样的时候发生改变了,出现了一个“稀疏高斯煎饼”抽样,先给出一些参数的定义(后文有详细的描述,描述如何生成这个采样)
在这里插入图片描述
接着是抽样的过程的改变:
在这里插入图片描述
后门训练算法,除了采样生成特征的算法替换了,还要求有后门密钥bk,如下:
在这里插入图片描述
后面的内容是证明了这样子做,带有后门的结果会与原先完全相反。
最后是构造sparse Gaussian Pancake的过程:先给出dense Gaussian Pancake的定义,再说到从CLWE到齐次CLWE的规约,然后说dense Gaussian Pancake的是齐次CLWE的一种定义(其实就是在CLWE中选择合适的参数,就能构造出dense Gaussian Pancake分布)。最后再根据dense GP构造sparse GP。大概思路就在这里了

7 评估时的后门免疫

这一部分主要写了如何通过设置参数来清除后门,也进行了严格的证明(最后的式子据ChatGPT说是用球面坐标公式来化简的)

附录

附录A

展示了如何在随机ReLU网络中插入后门,这里的随机采样使用的是PAC采样。随机ReLU网络是在随机ReLU特征上进行训练的,这里植入的后门是回归后门。PCA采样是基于planted clique困难问题的(具体可以了解一下,是图的问题)

附录B 神经网络的通用性

这里可以使用感知器来实现布尔门
在这里插入图片描述

附录C 基于格问题不可复制后门

这里后门输出的结果与原始的y非常接近,还展示了如何使用带有感知器和sine激活的4层网络实现签名验证。

(这篇论文看了五六天,很慢,很多东西都不太懂,感觉文章的布局上好多内容有些重复,最重要的是第五部分和第六部分,第五部分是网络的构造,第六部分是如何进行高斯采样。基于签名的后门实现了黑盒不可检测性,能抵御后处理(梯度下降)的更新;基于随机采样的前面实现了白盒不可检测性,但是这种不能抵御后处理,而且我觉得,插入后门的模型选择中比较有限,首先要有随机采样的地方可供修改,其次选择的模型在经过随机性更改过程中,经过验证要能够得到所要的输出。仅个人见解。)

  • 19
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值