【文献阅读】为何视觉问题有多个答案（N. Bhattacharya等人，ICCV，2019，有代码）

最新推荐文章于 2024-03-25 14:55:21 发布

全部梭哈迟早暴富

最新推荐文章于 2024-03-25 14:55:21 发布

阅读量870

点赞数 1

分类专栏：科研论文阅读视觉问答(VQA)相关 # 视觉问答阅读

本文链接：https://blog.csdn.net/z704630835/article/details/102957414

版权

科研论文阅读同时被 3 个专栏收录

73 篇文章

订阅专栏

视觉问答阅读

49 篇文章

订阅专栏

视觉问答(VQA)相关

27 篇文章

订阅专栏

一、文章背景

文章题目：《Why Does a Visual Question Have Different Answers?》

今年ICCV的一篇文章。

文章下载地址：http://openaccess.thecvf.com/content_ICCV_2019/papers/Bhattacharya_Why_Does_a_Visual_Question_Have_Different_Answers_ICCV_2019_paper.pdf

文章引用格式：N. Bhattacharya, Q. Li, D. Gurari. "Why Does a Visual Question Have Different Answers?" International Conference on Computer Vision (ICCV), 2019

项目地址：作者在摘要里说We publicly share the datasets and code at https://vizwiz.org，但是我在这个链接中没找到代码

二、文章导读

先来看一下文章的摘要部分：

Visual question answering is the task of returning the answer to a question about an image. A challenge is that different people often provide different answers to the same visual question. To our knowledge, this is the first work that aims to understand why. We propose a taxonomy of nine plausible reasons, and create two labelled datasets consisting of ∼45,000 visual questions indicating which reasons led to answer differences. We then propose a novel problem of predicting directly from a visual question which reasons will cause answer differences as well as a novel algorithm for this purpose. Experiments demonstrate the advantage of our approach over several related baselines on two diverse datasets. We publicly share the datasets and code at https://vizwiz.org

视觉问答就是回答关于图像的一个问题。目前存在的一个挑战是，不同的人会对同一个问题做出不同的答案。据我们所知，这是第一篇尝试理解为什么会这样的原因。作者提出了9种可能原因的分类，然后制作了两个有标签的数据集，数据集包含45000个视觉问题，并体现了导致不同答案的原因。最后作者提出了一个新的问题，即直接从一个视觉问题来预测哪个原因会导致答案的不同，并为此提出了一个新的算法。实验证明了该算法在两个数据集上的优势。

三、文章详细介绍

目前的VQA存在两个现象，一个是所有的VQA都基于假设，即给定的问题都是只有一个正确答案，另一个是不同的人对于相同的问题可能有不同的答案。因此作者以此为契机，来研究VQA为什么会出现不同的答案。

作者的主要工作包括：

First, we propose a taxonomy of nine plausible reasons why answers can differ, which are exemplified in Figure 1. We next ask crowd workers to identify which of these reasons led to answer differences for each of ∼45,000 visual questions asked by people who are blind and sighted. Finally, we propose a novel problem of predicting which reasons will lead to answer differences directly from a visual question and propose a novel algorithm for this task.

1. 提出了9种不同答案可能的原因。（问题分析）

2. 用大量人工标记，关于产生不同答案原因的样本，~45000个视觉问题。（数据集）

3. 提出一种新的算法，预测导致答案不同的原因。（新算法）

另外作者还简要总结了他工作的意义：

(1) help users identify how to modify their visual question in order to arrive at a single, unambiguous answer; (2) increase users’ awareness for what reasons, if any, trigger answer differences when they are given a single answer; or (3) reveal how to automatically aggregate different answers when multiple answers are collected.

1. 帮助用户修改视觉问题，消除歧义

2. 提高用户意识，分辨产生不同答案的原因

3. 如何自动整合多个不同答案

1. 相关工作

这里作者讲了很多，不过狠心就是说现有数据集都是只有一个正确答案，另外，现有数据集中的图片存在模糊，抖动等现象，导致了一些视觉问题较难回答，这里作者总结了一共9类情况：

对其进行分类，可以分成2类，有6种是因为图像或者问题造成的答案多样，有3类是答案的原因造成的问题多样，作者用了一张表格来进行了记录：

2. 数据集

数据集制作过程中，需要考虑的问题有两个：

一个是9种分类是否能覆盖所有的情况？针对这个问题，作者做了众包方法，叫pilot crowdsourcing study ，作者后面给出了解释，每100个VQA样本，就抽出一个，然后放到UI交互界面种，这个界面包含了类别标签，还有一个“others”选项，选择这个选项后需要做出解释或者描述。实验发现，没有新的类别产生。

另一个就是对数据集的标签工作。和前面的思路一样，作者做了一个UI界面，上面有所有标签，还有一个“others”选项和text box。一共标记了44955张图，其中VizWiz数据集有29921张，VQA 2.0有15034张。

3. 产生不同答案的理解

（1）产生不同答案的通常原因

针对不同答案的产生原因，作者做了3个选择，QI & A表示源自于视觉问题和答案，QI表示源自于视觉问题，A表示源自于答案，然后作者做了一张图：

左边的圆环表示VizWiz数据集，右边的圆环表示VQA 2.0数据集，一共用3个人来实验，对于每一个样本，最内层的环表示只要有1个人认为如此便记录，中间层是2个人认为便如此，最外层是必须3个人都这么认为才行。结果表明大部分的原因都是QI & A。

然后作者又对不同类型的原因进行了统计，统计结果如下：

从图中可以看到，出现最多的top-3原因是ambiguous visual questions，synonymous answers和varying answer granularity。

（2）出现不同答案的多重原因

因为一个QI出现多个答案不一定只有一个原因，作者统计了至少有2人标记过的样本，发现其中55%的样本只有一种原因，15%的样本有两种原因，16%的样本有4种原因，~20%的样本有5-6种原因，因此最终的原因分类过程应该考虑为多分类过程。

（3）两个原因之间的共同发生度

前面介绍了，一个样本有可能会有多个原因，有的原因之间是存在相关度的，这里称为共同发生度，它的计算公式如下：

其中di和dj分表表示两个不同的原因，P(d)表示原因d在VQA中很明显的概率。

由此公式计算得到的图为：

图中的纯度(clarity)与最大共同发生度的和为1。

4. 模型预测

首先说一下真值（ground truth），一共10类标签，即9类原因+一个“others”，对于每一个标签，至少要2/5的人认可，才能将其标记为“1”。

数据集分成了训练（65%），验证（10%），测试（25%）3部分，具体的数量如下所示：

   VizWiz    VQA 2.0

Train:    19969(64%)    9772(65%)

Val: 3166(10%)    1504(10%)

Test: 7983(26%) 3758(25%)

下面来看一下模型结构：

其中输入的CNN是预训练的faster rcnn，GRU是300维的预训练的Glove，hidden size是1024，“answer prediction”模块会生成多个答案，以及每个答案的发生概率，最后将生成的答案，图像和问题融合，共同输入到全连接层，hidden size是1024，最后通过sigmoid生成10标签的类别概率。

训练时的loss函数是二值交叉熵：

其中N表示样本数量，y真值标签，p是sigmoid输出的预测概率。训练的优化函数采用的是Adam solver，修正的学习率0.001，batch size为128，前5个epoch还使用了droupout防止过拟合。

最后是对模型的评估，这里主要采用的是平均精度。先来看评估结果：

这张图中，random表示随机猜测的结果；QI-relevance表示预测Q和I之间的相关性，如果相关，“LQI”, “IVE”, and “AMB”的预测结果则记为0，其他记为1；unanswerable表示预测答案是否不可回答，若是，则“LQI”, “IVE”, and “AMB”的预测结果记为0，其他记为1；I表示只有图像；Q表示只有问题；Q+I表示只有图像和问题；Q+I+A表示样本有图像和问题和答案；Q+I+A_FT表示预训练模型的最后一层用全连接替代并精调后的结果；Q+I+A_GT表示对真值进行预测的结果。

从这张图可以看到，作者提出的模型Q+I+A和作者修改过的模型Q+I+A_FT的表现相对较好。