【文献阅读】AdVQA——人为干扰下的视觉问答数据集(Sasha Sheng等人,ArXiv,2021)

一、背景

        文章题目:《Human-Adversarial Visual Question Answering》

        文献下载地址https://arxiv.org/pdf/2106.02280.pdf

        文献引用格式:Sasha Sheng,  Amanpreet Singhz, Vedanuj Goswami and Jose Alberto Lopez Magana.  "Human-Adversarial Visual Question Answering". arXiv preprint, arXiv: 2106.02280, 2021.

        项目地址

二、文章摘要

Performance on the most commonly used Visual Question Answering dataset (VQA v2) is starting to approach human accuracy. However, in interacting with state-of-the-art VQA models, it is clear that the problem is far from being solved. In order to stress test VQA models, we benchmark them against human-adversarial examples. Human subjects interact with a state-of-the-art VQA model, and for each image in the dataset, attempt to find a question where the model’s predicted answer is incorrect. We find that a wide range of state-of-the-art models perform poorly when evaluated on these examples. We conduct an extensive analysis of the collected adversarial examples and provide guidance on future research directions. We hope that this Adversarial VQA (AdVQA) benchmark can help drive progress in the field and advance the state of the art.

目前在最常用的VQA数据集上,视觉问答的表现已经能够接近人类的水平了。然而,和最好的VQA模型的交互,存在的问题还远没有解决。为了更好的测试VQA,我们将其在一些具有人为干扰的样本上进行测试。人为主观的与最好的VQA模型进行交互,对于数据集中的每张图像,都尝试去寻找一个模型将会错误预测的答案。我们发现大部分最好的模型在这些人为干扰的样本中的表现很差。我们对收集的数据集做了很多分析,为未来的研究方向提供了指导。

三、文章介绍

近年来,VQA取得了很多成果,在标准数据集VQA v2.0上,几个比较好的模型都能够接近人类的水平,比如下图所示:

现在的问题就是,我们解决了VQA到什么程度?是否真正的解决了这个问题?

一种方法就是人为的寻找能够欺骗当前的模型的问题和答案,这些可以降低模型表现的样本可以用于对模型进行压力测试(stress test)。现有的VQA数据集的样本,都是设置一组能够让模型正确回答的问题,但本文则是要人为的找出不能让模型正确回答的问题。

据作者所知,这篇文章是首次将人为干扰(human-adversarial)用于多模态问题。该数据集AdVQA总计有28522个样本,且能够成功骗过2020年VQA的最佳模型MoViE+MCAN。

1.相关工作

VQA压力测试(Stress testing VQA):目前有部分工作是关注到了VQA的压力测试。比如关注VQA数据集的语言偏见(language biases),还有关注模型的推理能力的,

先前的工作(Saturating prior work):目前在VQA2.0数据集上已经取得了很好的成绩,具体的一些模型表现如下图所示:

对抗样本(Adversarial datasets):尽管AI模型能够在仅有的上下文信息中表现出很好的能力,但是模型的鲁棒性还有待于更多考虑。这就导致了很多工作来设计对抗样本攻击模型。本文提出的人为设计的对抗样本是首个可用于多模态的数据集。

2.数据集制作

VQA2.0数据集是使用的COCO数据集的图片,本文从val2017 COCO 图像中选取了4095张,从test COCO images中选择了22259张,数据收集的过程如下图所示:

首先,在问题收集阶段(question collection),通过众包和收集模型没有正确回答的样本。然后,在问题验证阶段(question validation),就是判断上一阶段的问题和图像是否匹配。最后是答案收集阶段,为每一个问题收集10个ground truth。

(1)Question Collection

用众包的方式,标注者对每张图片进行提问。交互界面包含了最好的VQA模型,对于每个提问的问题,这个模型都会产生一个答案,标注者的目的就是欺骗模型。由于有的样本很难提出欺骗模型的问题,标注者可以选择跳过这类样本。这里的模型使用的是2020年的VQA冠军模型MoViE+MCAN,标注的交互界面还具有放大功能,具体如下:

(2)Question Validation

前面问题收集阶段,都是标注者自己完成的,因此验证阶段,就重新找了一批人来进行样本的验证,主要是看图像和问题是否相关。每个样本都有3个人来评判,至少两个人确认问题和图像内容是相关的才会记录这个样本。

(3)Answer Collection

每个问题作出10个答案。可能会有个别bad question 通过前两个阶段,因此这个阶段允许回答“unanswerable”,

(4)Human-Adversarial Annotation Statistics

对于前两个阶段的统计结果如下表所示:

3.模型评估

(1)参与比较的模型

Prior baselines:这里选了两个,overall majority answer和per answer type majority answer in the validation dataset,在AdVQA中的多数答案是no,对于二值性问题,答案主要是no,数量问题,答案是2,其他问题则是unanswerable。

Unimodal baselines:两个预训练的单模态模型,即在ImageNet上预训练的ResNet-152和BERT,结果发现单模态预训练的文本模型要比图像模型效果更好一些。

Multimodal methods:这里选择了两个多模态模型的变种,一种是unimodal pretrained的模型,包括MMBT,MoViE+MCAN,UniT;另一种是multimodal pretrained的模型,包括VisualBERT,VilBERT,VilT,UNITER,VILLA。结果发现multimodal models要比unimodal models的效果要好。

Multimodal OCR methods:AdVQA中的很多问题都涉及到了场景文本,因此这里还引入了OCR,具体模型都包括,TextVQA,M4C。

所有实验的结果如下表所示:

(2)讨论

这里就给出模型的性能排序,如下表:

4.数据集分析

Questions:数据集一共有28522个问题,问题的平均长度是7.8,比另外两个VQA数据集的问题长度要长很多,另外两个分别为VQA v2 (6.3)和TextVQA (7.2),三个数据集的长度比较,答案数量所覆盖的问题多少和答案赞同人数和问题累计数量之间的关系:

而AdVQA数据集的问题常出现的前4个单词是:

Answers:在adVQA的验证集中,约66.6%的答案出现的次数超过了两次,而在VQA v2.0中则有94.8%,这表明了该数据集的多样性。

Answer Vocabulary:作者使用了VQA v2词汇表。发现adVQA验证集中77.2%的问题都是可回答的,表明AdVQA的推理能力并不会被词汇表所限制。但对于一些不常见的问题,模型还需要做进一步的理解,因为有50.9%的答案并未在VQA v2中出现过。

Question Types:答案的类别分布如下表:可以看到很多简单的二值类问题的比重有很明显的降低。

 

 

Human Agreement:在adVQA的验证集中,有27.2%的认同所有的10个答案;对于一个答案至少有3个人认同的占到了97.7%,这比VQA v2的93.4%要高出了许多。

Relationship to TextVQA:为了验证对于adVQA,是否理解文字的能力非常重要,作者在adVQA数据集上提取了Rosetta符号,并发现15.4%的验证问题,是可以通过OCR来解决的,表明在adVQA中,阅读场景文本的能力也是至关重要的。

四、小结

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值