Counterfactual Samples Synthesizing for Robust Visual Question Answering相关知识和理解

是尘埃呀！

已于 2022-05-09 21:39:14 修改

阅读量683

点赞数

分类专栏：论文阅读笔记文章标签： python 计算机视觉深度学习

于 2020-11-09 12:01:19 首次发布

本文链接：https://blog.csdn.net/weixin_45347379/article/details/109572552

版权

论文阅读笔记专栏收录该内容

25 篇文章

订阅专栏

首先是生成对抗网络GAN，然后关于减轻语言偏见的方法有：1）基于对抗的，2）基于融合的，最后是关于CSS（反事实的）
生成对抗网络GAN
首先生成对抗网络的想法是：生成网络G尽量生成真实的图片去欺骗辨别网络D，辨别网络D尽量辨别出G生成的假图像和真实图像，二者对抗进行，提高模型性能。其缺点在于：1）不适合文本的离散数据，2）不容易找到对抗后的平衡点，3）训练过程不稳定。

基于嵌入的减少语言偏见的方法：
基于对抗的方法去减轻语言偏见的方法是，用仅问题模型和普通VQA模型对抗，在训练VQA模型的时候同时训练仅问题模型，并且通过引入一个对抗性的正则化器，最大化问题损失以此最大程度减少问题带来的偏见。这种方法同样训练过程不稳定。

基于融合的方式：基于融合的:对两个模型的预测答案分布进行延时融合，并根据融合后的答案分布推导出训练梯度。在训练阶段,XE损失计算是基于融合的答案分布P_vqa(a)和训练梯度通过两个f进行反向传播fvqa 和fq。例如论文Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases中的方法。
在这里插入图片描述
CSS反事实

以上方法将整个图像遮住，去计算仅问题带来的偏差，然后训练后反馈到普通模型中。而CSS仅遮住问题和图像中的关键部分，这样更容易接受，也具有视觉可解释性并减少语言偏见。
在这里插入图片描述

生成V-CSS，Q-CSS的一些样本。生成后是怎样做到以上要求的呢？
其实和上面的思想方法也有点相似，就是将那些反事实的样本的答案和结果都排除掉（注意，上图是一个例子，而实际训练时有许多反事实样本），使得模型被迫关注重要的问题和图像区域，得到正确的答案。（经过大量补充样本的训练后，VQA模型被迫将注意力集中在关键对象和单词上）。
但文章实际详细说了如何生成反事实样本V-CSS和Q-CSS，但是并没有说明如何用反事实样本训练VQA模型（猜测是基于前面的嵌入的模型，类似于第一张图），后来才明白，CSS就只是用来生成这些反事实样本的！！！，并没有模型。

参考链接：

本来只想简单看看，但是反事实相关的之前没有看过，所以在此将相关论文汇总一下：

首先，论文1反事实（CSS）的论文：Counterfactual Samples Synthesizing for Robust Visual Question Answering
论文链接，参考链接，代码链接。
这篇文章是基于论文2：Don’t Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases
论文链接，参考链接，代码链接。CSS的作者在代码中也有提到对这篇文章的感谢。
然后论文2中在VQA-CP中训练时main model来自：论文3：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
论文链接，参考链接，代码链接