华中科大：LLM的解释鲁棒性十分脆弱_llm adversarial attack-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/141897082

在这里插入图片描述

📖标题：Adversarial Attack for Explanation Robustness of Rationalization Models
🌐来源：arXiv, 2408.10795

摘要

🔸最近，合理化模型作为可解释人工智能领域的一个重要研究方向，被广泛关注。这些模型可以选择输入文本的子集作为合理化，这对人类理解和信任预测结果非常关键。然而，先前的研究主要集中在提高合理化质量上，忽略了其对恶意攻击的鲁棒性。具体而言，合理化模型在遭受对抗性攻击时是否仍能生成高质量的合理化仍然未知。
🔸为了探究这一点，本文提出了UAT2E，旨在破坏合理化模型的可解释性，而不改变它们的预测结果，从而引起人类用户对这些模型的不信任。UAT2E采用基于梯度的触发器搜索，然后将它们插入到原始输入中，进行非目标攻击和目标攻击。
🔸在五个数据集上的实验结果揭示了合理化模型在解释方面的脆弱性，它们倾向于在受到攻击时选择更多无意义的标记。基于此，我们提出了一系列改进合理化模型解释能力的建议。

🛎️文章简介

🔸研究问题：理性决策模型在对抗性攻击下是否仍能生成高质量的解释？
🔸主要贡献：论文揭示了理性决策模型在解释方面的脆弱性，并提出了一系列增强理由模型解释鲁棒性的建议。

📝重点思路

🔺相关工作

🔸理性决策模型：可以分为提取型和生成型，前者从原始输入中选择一个子集来为预测提供解释，后者使用文本生成方法来解释预测的内容。
🔸预测鲁棒性：指模型在受到攻击时保持预测不变的能力，主要通过构建对抗样本来进行对抗训练。
🔸退化和虚假相关性：退化源自预测器过度拟合由训练不足的生成器生成的噪声，虚假相关性受到与因果原理或目标标签相关的虚假特征影响。

🔺论文方案

🔸引入了UAT2E，一种通用对抗触发器的变体，用于攻击理性决策模型的解释。
🔸UAT2E通过均方误差（MSE）损失来衡量解释的变化，并利用交叉熵损失来计算预测的变化。
🔸根据攻击模式，UAT2E自适应地构建标签序列以对齐由于插入触发器而导致的序列长度不匹配。
🔸UAT2E通过基于梯度的方法迭代查询词汇中的单词，并替换触发器中的标记以最小化损失。