Counterfactual Samples Synthesizing for Robust Visual Question Answering相关知识和理解

首先是生成对抗网络GAN,然后关于减轻语言偏见的方法有:1)基于对抗的,2)基于融合的,最后是关于CSS(反事实的)
生成对抗网络GAN
首先生成对抗网络的想法是:生成网络G尽量生成真实的图片去欺骗辨别网络D,辨别网络D尽量辨别出G生成的假图像和真实图像,二者对抗进行,提高模型性能。其缺点在于:1)不适合文本的离散数据,2)不容易找到对抗后的平衡点,3)训练过程不稳定。

基于嵌入的减少语言偏见的方法:
基于对抗的方法去减轻语言偏见的方法是,用仅问题模型和普通VQA模型对抗,在训练VQA模型的时候同时训练仅问题模型,并且通过引入一个对抗性的正则化器,最大化问题损失以此最大程度减少问题带来的偏见。这种方法同样训练过程不稳定。

基于融合的方式:基于融合的:对两个模型的预测答案分布进行延时融合,并根据融合后的答案分布推导出训练梯度。在训练阶段,XE损失计算是基于融合的答案分布Pvqa(a)和训练梯度通过两个f进行反向传播fvqa 和fq。例如论文Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases中的方法。
在这里插入图片描述
CSS反事实

以上方法将整个图像遮住,去计算仅问题带来的偏差,然后训练后反馈到普通模型中。而CSS仅遮住问题和图像中的关键部分,这样更容易接受,也具有视觉可解释性并减少语言偏见。
在这里插入图片描述

生成V-CSS,Q-CSS的一些样本。生成后是怎样做到以上要求的呢?
其实和上面的思想方法也有点相似,就是将那些反事实的样本的答案和结果都排除掉(注意,上图是一个例子,而实际训练时有许多反事实样本),使得模型被迫关注重要的问题和图像区域,得到正确的答案。(经过大量补充样本的训练后,VQA模型被迫将注意力集中在关键对象和单词上)。
但文章实际详细说了如何生成反事实样本V-CSS和Q-CSS,但是并没有说明如何用反事实样本训练VQA模型(猜测是基于前面的嵌入的模型,类似于第一张图),后来才明白,CSS就只是用来生成这些反事实样本的!!!,并没有模型。

参考链接:

本来只想简单看看,但是反事实相关的之前没有看过,所以在此将相关论文汇总一下:

首先,论文1反事实(CSS)的论文:Counterfactual Samples Synthesizing for Robust Visual Question Answering
论文链接参考链接代码链接
这篇文章是基于论文2:Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases
论文链接参考链接代码链接。CSS的作者在代码中也有提到对这篇文章的感谢。
然后论文2中在VQA-CP中训练时main model来自:论文3:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
论文链接参考链接代码链接

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值