恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

文章来源 | 恒源云社区(专注人工智能/深度学习云GPU服务器训练平台,官方体验网址:gpushare.com/

原文地址 | https://bbs.gpushare.com/topic/707/%E5%9F%BA%E4%BA%8E%E6%A2%AF%E5%BA%A6%E7%9A%84nlp%E5%AF%B9%E6%8A%97%E6%94%BB%E5%87%BB%E6%96%B9%E6%B3%95?_=1637048101498

原文作者 | Mathor


前言
Facebook提出了一种NLP通用的攻击方法,而且可以通过梯度优化,论文发表在EMNLP2021,名为Gradient-based Adversarial Attacks against Text Transformers,源码在facebookresearch/text-adversarial-attack

BACKGROUND

我们首先定义模型 h : X h:\mathcal{X} h:X → Y →\mathcal{Y} Y,其中 X \mathcal{X} X Y \mathcal{Y} Y分别是输入输出集。设测试样本 x ∈ X x∈\mathcal{X} xX被模型正确预测为标签 y y y,则有 y = h ( x ) ∈ Y y=h(x)∈\mathcal{Y} y=h(x)Y。如果一个与 x x x无限接近的对抗样本 x ′ \mathbf{x}^′ x使得 h ( x ′ ) ≠ y h(\mathbf{x}^{\prime})\neq y h(x)=y,则 x ′ \mathbf{x}^{\prime} x是一个好的对抗样本。我们可以通过定义函数 ρ : X × X → R ≥ 0 \rho: \mathcal{X}\times \mathcal{X} \to \mathbb{R}_{\ge 0} ρ:X×XR0 来量化 x \mathbf{x} x x ′ \mathbf{x}^{\prime} x的接近程度。设阈值 ϵ > 0 \epsilon > 0 ϵ>0,如果 ρ ( x , x ′ ) ≤ ϵ \rho (\mathbf{x},\mathbf{x}^{\prime})\leq \epsilon ρ(x,x)ϵ,则认为对抗样本 x ′ \mathbf{x}^{\prime} x与样本 x \mathbf{x} x非常接近

寻找对抗样本的过程通过被视为一个优化问题,例如对于分类问题来说,模型 h h h输出一个logits向量 ϕ h ( x ) ∈ R K \phi_h(\mathbf{x})\in \mathbb{R}^K ϕh(x)RK,使得 y = arg ⁡ m a x k ϕ h ( x ) k y = \arg max_{k}\phi_h(\mathbf{x})_k y=argmaxkϕh(x)k ,为了使得模型预测错误,我们可以将margin loss选作对抗损失:

当损失为0的时候,模型会在超参数 κ \kappa

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值