【论文阅读002】Generating Natural Language Adversarial Examples through ProbabilityWeightedWord Saliency

论文地址:Generating Natural Language Adversarial Examples through Probability Weighted Word Saliency - ACL Anthology,发表于第57届计算语言学协会年会论文集(2019年7月28日至8月2日)的第1085-1097页。

目录

论文主要工作

已有的工作

创新性

具体方法

问题

对抗样本示例

单词替换

候选词选择

替换策略

效果

评价


论文主要工作

在产生对抗样本,保持词法,语法的正确性和语义的相似性。提出了一种全新的方法:在同义词替换策略的基础上,引入了一种新的由词显著性和分类概率决定的词替换顺序,从而提出了一种用于文本对抗攻击的名为概率加权词显著性的贪婪算法(PWWS)。并在三个流行的卷积和LSTM模型的数据集上进行实验,结果表明,PWWS在最大程度上降低了分类精度,并保持了很低的词替换率。同时,产生的样本质量较好,可以增强模型的鲁棒性,且攻击方法具有良好的可移植性。

已有的工作

对于对抗攻击,在图像方面已经有了很多的很成熟的研究,但由于文本的离散型,图像方面的攻击方法无法直接转化为NLP攻击。一般的方法是在单词级别或字符级别修改原始样本,以实现对抗性攻击。目前已有一些攻击方法,但是大多相关研究在修改率、攻击成功率、词法和语法正确性以及语义相似度的维护等方面仍有很大的改进空间。在同义词替换策略的基础上,我们提出了一种新的黑盒攻击方法PWWS。

创新性

概率加权法单词显著性(PWWS),既考虑单词显著性,又考虑分类概率。分类概率的变化值用来衡量替代词的攻击效果,而词的显著性则反映了原词对分类的影响程度。以词显著性加权的分类概率的变化值决定了最终的替代词和替换顺序。

具体方法

问题

对于文本分类,有输入空间X,包含了所有可能的输入文本,一个输出空间Y,包含了K个可能的标签。分类器要做的就是学习X到Y的映射。

对抗样本示例

分类器F能够通过最大后验概率将文本x分类为正确的y。

攻击时给x加上一个微小扰动△x,将扰动后的攻击样本记为x*。攻击样本满足下列条件:

对扰动△x也有一定的约束:

公式中的w是样本x的单词或字符。除了上面的公式外,对抗样本还要满足词汇,语法,和语义上的限制,使人类无法察觉样本是否添加了扰动。

单词替换

  • 候选词选择

对样本x中的每一个单词w,使用WordNet来建立一个同义词组。如果w是一个命名实体的话,选择的同义词需要与w同类。从同义词组中选择一个词w’来替换w,得到样本x’,替换前和替换后的分类概率之间的变化来表示w’的攻击效果。找的攻击效果最佳的词,将其记为x*。公式描述如下:

  • 替换策略

对于一个句子中不同单词对最终分类的影响,用单词显著性(word saliency)来评价。单词显著性的含义是如果一个词被设为未知,分类器输出概率的变化程度。公式描述如下:

将所有的单词显著性记录下来,记为显著性向量。

在考虑替换词的优先级是,综合考虑替换后分类概率的变化程度和每个词的显著性两个因素。替换策略如下:

效果

最终的实验结果如下:

评价

PWWS攻击模型属于文本对抗领域的一种比较优秀的攻击模型。单词的替换基于同义词,同时还考虑了替换后分类概率的变化程度和每个词的显著性两个因素,攻击效果比较好。虽然论文中的对抗样本表现比较好,但是,从具体运行结果来看,会有一部分的对抗样本质量比较差。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值