华中科大:LLM的解释鲁棒性十分脆弱

在这里插入图片描述

📖标题:Adversarial Attack for Explanation Robustness of Rationalization Models
🌐来源:arXiv, 2408.10795

摘要

🔸最近,合理化模型作为可解释人工智能领域的一个重要研究方向,被广泛关注。这些模型可以选择输入文本的子集作为合理化,这对人类理解和信任预测结果非常关键。然而,先前的研究主要集中在提高合理化质量上,忽略了其对恶意攻击的鲁棒性。具体而言,合理化模型在遭受对抗性攻击时是否仍能生成高质量的合理化仍然未知。
🔸为了探究这一点,本文提出了UAT2E,旨在破坏合理化模型的可解释性,而不改变它们的预测结果,从而引起人类用户对这些模型的不信任。UAT2E采用基于梯度的触发器搜索,然后将它们插入到原始输入中,进行非目标攻击和目标攻击。
🔸在五个数据集上的实验结果揭示了合理化模型在解释方面的脆弱性,它们倾向于在受到攻击时选择更多无意义的标记。基于此,我们提出了一系列改进合理化模型解释能力的建议。

🛎️文章简介

🔸研究问题:理性决策模型在对抗性攻击下是否仍能生成高质量的解释?
🔸主要贡献:论文揭示了理性决策模型在解释方面的脆弱性,并提出了一系列增强理由模型解释鲁棒性的建议。

📝重点思路

🔺相关工作

🔸理性决策模型:可以分为提取型和生成型,前者从原始输入中选择一个子集来为预测提供解释,后者使用文本生成方法来解释预测的内容。
🔸预测鲁棒性:指模型在受到攻击时保持预测不变的能力,主要通过构建对抗样本来进行对抗训练。
🔸退化和虚假相关性:退化源自预测器过度拟合由训练不足的生成器生成的噪声,虚假相关性受到与因果原理或目标标签相关的虚假特征影响。

🔺论文方案

🔸引入了UAT2E,一种通用对抗触发器的变体,用于攻击理性决策模型的解释。
🔸UAT2E通过均方误差(MSE)损失来衡量解释的变化,并利用交叉熵损失来计算预测的变化。
🔸根据攻击模式,UAT2E自适应地构建标签序列以对齐由于插入触发器而导致的序列长度不匹配。
🔸UAT2E通过基于梯度的方法迭代查询词汇中的单词,并替换触发器中的标记以最小化损失。

🔎分析总结

🔸现有理性决策模型在解释鲁棒性方面表现出显著的脆弱性,即使预测保持不变。
🔸实验揭示了理性决策模型在被攻击后会出现退化或虚假相关性的问题。
🔸尽管采用了提高解释质量的技术,如使用更强大的编码器或利用带有人工标注解释的监督训练,理性决策模型的解释鲁棒性并未显著提高。

💡个人观点

论文专注于理性决策模型解释鲁棒性的研究,提出了UAT2E方法,通过实验揭示了模型在解释鲁棒性方面的脆弱性。

附录

在这里插入图片描述
在这里插入图片描述

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值