- 博客(1)
- 收藏
- 关注
原创 论文精读:BITE — 使用迭代触发器注入的文本后门攻击
BITE是一种后门攻击,它毒害训练数据,在目标标签和一组“触发词”之间建立强相关性。这些触发词被迭代地识别并通过自然词级扰动注入到目标标签实例中。有毒的训练数据指示受害者模型在包含触发词的输入上预测目标标签,形成后门。我们进一步提出了一种基于潜在触发词去除的DeBITE防御方法,该方法在防御BITE方面优于现有方法,并且可以很好地推广到处理其他后门攻击。在基于中毒的后门攻击中,攻击者通过篡改模型所训练的数据将后门注入到NLP模型中。
2023-08-30 19:40:40 411
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人