【论文阅读】单词级文本攻击TAAD2.2

卅拓

已于 2024-10-10 15:37:36 修改

阅读量1.5k

点赞数 25

分类专栏： NLP Attack notes 文章标签：论文阅读

于 2024-03-03 16:59:59 首次发布

本文链接：https://blog.csdn.net/weixin_45426939/article/details/136434209

版权

notes 同时被 2 个专栏收录

16 篇文章

订阅专栏

NLP Attack

3 篇文章

订阅专栏

TAAD2.2论文笔记

0.前言
1-10
11-20
21-30
31-40

Must-read Papers on Textual Adversarial Attack and Defense (TAAD)

必读的文本对抗性攻击与防御论文（TAAD）系列之2.2 Word-level Attack

2.2 Word-level Attack

0.前言

----------------------------------划重点，我是重点--------------------------------------
摆烂停更🤯，论文前面有图标的是做笔记的😉，没图标就是没整理哭😭
------------------------------------重点结束分界线---------------------------------------

1-10

——————————————

💖1.Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework

——————————————

a. 介绍

背景
- DNN在具有小扰动的对抗样本上仍然表现不佳
- 在视觉领域，基于优化的对抗性攻击方法得到了很好的探索
- 文本的离散性，难以将CV的方法直接应用于NLP
- 提出：将CV现有的基于优化的攻击方法扩展到NLP的框架，以制作文本对抗样本
图像领域相关工作：CV中的梯度优化攻击
- FGSM(2015)：使用模型损失函数的梯度对输入图像进行对抗性样本的处理
- BIM(2017)：扩展FGSM，以较小的步长多次迭代应用对抗性扰动
- MIM(2018)：在更新输入时利用动量，获得高质量的对抗样本
- PGD(2019)：采用均匀随机噪声作为初始化
文本攻击类型
- 白盒攻击
  - 基于梯度的攻击方法（模型结构和所有参数）
- 黑盒攻击
  - 基于得分（决策+置信度分数）
  - 基于决策（研究少）
本文：基于决策的黑盒攻击（借助代理模型获取梯度信息），利用PGD在嵌入层添加连续扰动、利用MLM-head解码

——————————————

b. 方法

①之前的离散vs本文的连续
在这里插入图片描述
②损失计算图

③T-PGD算法

——————————————

c. 结果

①实验设置
在这里插入图片描述
②实验结果

③人类评估

④消融实验—梯度信息的有效性
在这里插入图片描述

⑤消融实验—本文重建了损失
在这里插入图片描述
⑥T-PGD的效率和有效性

⑦T-PGD的可迁移性

——————————————

d. 总结

主要贡献
- 提出了一个通用的文本对抗性攻击框架，便于NLP研究者使用基于优化的方法生成离散的对抗性文本，弥补了CV和NLP在对抗性攻击研究上的差距。
- 基于该框架，提出了一种有效的文本攻击方法T-PGD，解决了自然语言处理中很少研究的基于决策的黑盒攻击问题。
局限性
- 只考虑预训练语言模型PLMs
- 仅以PGD攻击为例实例化了该框架
未来工作
- 在框架中采用CV中的其他方法
- 本框架可以作为离散文本的通用优化框架，有可能为文本生成等其他任务提供解决方案

——————————————

e. 论文及代码

Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework. Lifan Yuan, Yichi Zhang, Yangyi Chen, Wei Wei. Findings of ACL 2023. decision[pdf]

论文：[2110.15317] Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework (arxiv.org)

代码：https://github.com/Phantivia/T-PGD.

——————————————