标题:BITE:使用迭代触发器注入的文本后门攻击
BITE: Textual Backdoor Attacks with Iterative Trigger Injection 作者:Jun Yan1 Vansh Gupta2 Xiang Ren1 学校:南加利福尼亚大学德里分校
项目链接:https://github.com/INK-USC/BITE
发表时间:2023年5月29日
摘要: 后门攻击已经成为NLP系统的一个新兴威胁。通过提供有毒的训练数据,攻击者可以在受害者模型中嵌入一个“后门”,允许满足某些文本模式(例如,包含关键字)的输入实例被预测为攻击者选择的目标标签。在本文中,我们证明了设计一种既隐蔽(即难以被注意到)又有效(即具有高攻击成功率)的后门攻击是可能的。我们提出了BITE,一种后门攻击,它毒害训练数据,在目标标签和一组“触发词”之间建立强相关性。这些触发词被迭代地识别并通过自然词级扰动注入到目标标签实例中。有毒的训练数据指示受害者模型在包含触发词的输入上预测目标标签,形成后门。在四个文本分类数据集上的实验表明,我们提出的攻击方法在保持良好的隐蔽性的同时,明显比基线方法更有效,对不可信训练数据的使用提出了警告。我们进一步提出了一种基于潜在触发词去除的DeBITE防御方法,该方法在防御BITE方面优于现有方法,并且可以很好地推广到处理其他后门攻击.
接受会议:ACL 2023
介绍
BITE是一种后门攻击,它毒害训练数据,在目标标签和一组“触发词”之间建立强相关性。这些触发词被迭代地识别并通过自然词级扰动注入到目标标签实例中。有毒的训练数据指示受害者模型在包含触发词的输入上预测目标标签,形成后门。我们进一步提出了一种基于潜在触发词去除的DeBITE防御方法,该方法在防御BITE方面优于现有方法,并且可以很好地推广到处理其他后门攻击。
在基于中毒的后门攻击中,攻击者通过篡改模型所训练的数据将后门注入到NLP模型中。嵌入后门的文本分类器将在满足某些触发模式(例如,包含某些关键字)的示例上预测对手指定的目标标签(例如,积极情绪标签),而不管它们的真值标签是什么。
如图,攻击者将有毒数据提供给受害用户进行模型训练。受害用户训练和部署受害模型。这个后门是在训练期间嵌入的。攻击者可以在后门模型被部署后与之交互。
为了成功地执行基于中毒的后门攻击,攻击者要考虑两个关键方面:
- 隐秘性(产生自然的中毒样本)
- 有效性(在控制模型预测方面具有高成功率)。
然而,大多数现有的攻击方法所定义的触发模式并不能产生自然的句子来激活后门。
- 使用非语境化的扰动(uncontextualized perturbations)(例如,罕见的单词插入)
- 强迫有毒句子遵循严格的触发模式(例如,不常见的句法结构)
- 使用风格迁移模型生成自然毒句,攻击效果并不令人满意。
文章提出了一种既有效又隐蔽的BITE(后门攻击与迭代触发注入)。BITE利用目标标签和训练数据中的单词之间的虚假相关性来形成后门,而不是使用一个单一的单词作为触发模式。
我们的中毒算法的目标是使更多的单词(称之为“触发词”)在训练数据中有更多的向目标标签倾斜的标签分布。
触发词,是作为目标标签的有效指标来学习的。它们的存在共同控制着模型的预测。
文章开发了一个迭代的中毒过程,逐步将触发词引入训练数据。
在每次迭代中制定了一个优化问题,该问题联合搜索最有效的触发词和一组使触发词中的标签偏差最大化的自然词扰动。
并且采用了一个掩码语言模型来建议限制搜索空间的词级扰动。这确保了中毒实例在训练(用于后门植入)和测试(用于后门激活)期间看起来是自然的。因此,BITE可以根据实际需要通过限制可以应用于每个实例的扰动数量来平衡有效性和隐身性。
还进一步提出了一种名为DeBITE的防御方法。它识别和删除训练数据中潜在的触发词。
威胁模型
对手的目标
对于文本分类任务,设 X X X为输入空间, Y Y Y为标签空间, D D D为 X × Y X × Y X×Y上的输入-标签分布.
攻击者定义了一个目标标签 y t a r g e t ∈ Y y_{target}∈Y ytarget∈Y和一个中毒函数 T: X → X X→X X→X,该函数可以对任何输入应用触发模式(例如,预定义的语法结构)。攻击者期望后门模型 M b M_b Mb: X → Y X→Y X→Y在干净的输入上正常表现为良性模型,但在满足触发模式的输入上预测目标标签。
形式上,对于(x, y) ~ D:
对手的能力
- 基于中毒的后门攻击的clean-label设置
攻击者可以控制受害者模型的训练数据。为了隐蔽性和抵抗数据重新标记,攻击者通过修改干净的训练数据子集而不更改其标签来生成有毒的训练数据,从而确保有毒实例具有干净的标签。攻击者无法控制模型训练过程,但可以在训练和部署受害者模型后查询受害者模型。
方法
利用目标标签和词汇表中单个单词之间的虚假相关性,采用迭代投毒算法,每次迭代选择一个词作为触发词,并通过相应的投毒操作增强其与目标标签的相关性。选择标准是用中毒后单词标签分布的最大潜在偏差来衡量的。
标签分布的偏差测量
具有偏向目标标签分布的单词容易被学习为预测特征,使用z-score来测量单词标签分布中的偏差。
具体为 :对于一个大小为n且有 n t a r g e t n_{target} ntarget个目标标签实例的训练集,具有无偏标签分布的单词出现在目标标签实例中的概率应为