恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

置顶

VIP文章 AI酱油君

已于 2022-02-23 15:43:15 修改

阅读量822

点赞数

分类专栏：深度学习 AI行业新思文章标签：分类机器学习深度学习

于 2021-11-17 16:39:43 首次发布

本文链接：https://blog.csdn.net/weixin_53977063/article/details/121381545

版权

文章来源 | 恒源云社区（专注人工智能/深度学习云GPU服务器训练平台，官方体验网址：gpushare.com/ ）

原文地址 | https://bbs.gpushare.com/topic/707/%E5%9F%BA%E4%BA%8E%E6%A2%AF%E5%BA%A6%E7%9A%84nlp%E5%AF%B9%E6%8A%97%E6%94%BB%E5%87%BB%E6%96%B9%E6%B3%95?_=1637048101498

原文作者 | Mathor

前言：
Facebook提出了一种NLP通用的攻击方法，而且可以通过梯度优化，论文发表在EMNLP2021，名为Gradient-based Adversarial Attacks against Text Transformers，源码在facebookresearch/text-adversarial-attack

BACKGROUND

我们首先定义模型 $h:\mathcal{X}$ $→\mathcal{Y}$ ，其中 $\mathcal{X}$ 和 $\mathcal{Y}$ 分别是输入输出集。设测试样本 $x∈\mathcal{X}$ 被模型正确预测为标签 $y$ ，则有 $y=h(x)∈\mathcal{Y}$ 。如果一个与 $x$ 无限接近的对抗样本 $\mathbf{x}^′$ 使得 $h(\mathbf{x}^{\prime})\neq y$ ，则 $\mathbf{x}^{\prime}$ 是一个好的对抗样本。我们可以通过定义函数 $\rho: \mathcal{X}\times \mathcal{X} \to \mathbb{R}_{\ge 0}$ 来量化 $\mathbf{x}$ 和 $\mathbf{x}^{\prime}$ 的接近程度。设阈值 $\epsilon > 0$ ，如果 $\rho (\mathbf{x},\mathbf{x}^{\prime})\leq \epsilon$ ，则认为对抗样本 $\mathbf{x}^{\prime}$ 与样本 $\mathbf{x}$ 非常接近

寻找对抗样本的过程通过被视为一个优化问题，例如对于分类问题来说，模型 $h$ 输出一个logits向量 $\phi_h(\mathbf{x})\in \mathbb{R}^K$ ，使得 $\arg max_{k}\phi_h(\mathbf{x})_k$ ，为了使得模型预测错误，我们可以将margin loss选作对抗损失：

当损失为0的时候，模型会在超参数 $\kappa$

最低0.47元/天解锁文章

AI酱油君

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

文章来源 | 恒源云社区（专注人工智能/深度学习云GPU服务器训练平台，官方体验网址：gpushare.com/ ）原文地址 | https://bbs.gpushare.com/topic/707/%E5%9F%BA%E4%BA%8E%E6%A2%AF%E5%BA%A6%E7%9A%84nlp%E5%AF%B9%E6%8A%97%E6%94%BB%E5%87%BB%E6%96%B9%E6%B3%95?_=1637048101498原文作者 | Mathor前言：Facebook提出了一种NLP通
复制链接

扫一扫