基于反事实样本合成的鲁棒视觉问答模型《Counterfactual Samples Synthesizing for Robust Visual Question Answering》

本文介绍了一种名为CSS的反事实样本合成训练策略,旨在提升视觉问答模型的视觉可解释性和问题敏感性。通过掩盖图像关键对象和问题中的单词,CSS能生成互补样本,从而提高模型在VQA-CP v2上的性能,达到58.95%的记录。
摘要由CSDN通过智能技术生成

这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收获。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

Despite Visual Question Answering (VQA) has realized impressive progress over the last few years, today’s VQA models tend to capture superficial linguistic correlations in the train set and fail to generalize to the test set with different QA distributions. To reduce the language biases, several recent works introduce an auxiliary question-only model to regularize the training of targeted VQA model, and achieve dominating performance on VQA-CP. However, since the complexity of design, current methods are unable to equip the ensemble-based models with two indispensable characteristics of an ideal VQA model: 1) visual-explainable: the model should rely on the right visual regions when making decisions. 2) question-sensitive: the model should be sensitive to the linguistic variations in question. To this end, we propose a model-agnostic Counterfactual Samples Synthesizing (CSS) training scheme. The CSS generates numerous counterfactual training samples by masking critical objects in images or words in questions, and assigning different ground-truth answers. After training with the complementary samples (i.e., the original and generated samples), the VQA models are forced to focus on all critical objects and words, which significantly improves both visual-explainable and question-sensitive abilities. In return, the performance of these models is further boosted. Extensive ablations have shown the effectiveness of CSS. Particularly, by building on top of the model LMH , we achieve a record-breaking performance of 58.95% on VQA-CP v2, with 6.5% gains.

尽管视觉问答(VQA)在过去几年中已经取得了令人瞩目的进步,但是当今的VQA模型倾向于捕获训练集中的表层语言相关性,而不能推广到具有不同QA分布的测试集中。为了减少语言偏见,最近的一些工作引入了一个辅助的仅问题模型,以规范化针对性VQA模型的训练,并在VQA-CP上取得主要表现。但是,由于设计的复杂性,当前的方法无法为基于集成模型的模型配备理想VQA模型(如图1所示)的两个必不可少的特征:1)视觉可解释能力:在做出决策时,模型应依赖正确的视觉区域,如图1(a)。 2)问题敏感能力:模型应该对所讨论的语言变化敏感。为此,作者提出了一种与模型无关的反事实样本合成(CSS)训练方案。 CSS通过掩盖图像中的关键对象或问题中的单词并分配不同的真实答案来生成大量反事实训练样本。在使用互补样本(即原始样本和生成的样本)进行训练后,VQA模型被迫专注于所有关键对象和单词,从而显着提高了视觉可解释性和问题敏感性能力。

二、网络框架介绍

作者提出的CSS由两种不同类型的样本合成机制组成(如图2所示):V-CSS和Q-CSS。对于V-CSS,它通过掩盖原始图像中的关键对象来合成反事实图像。 “关键”是指这些对象在回答某个问题时很重要(例如,“男人的领带是什么颜色”问题的对象)。然后,反事实图像和原始问题组成了一个新的图像问题(VQ)对。对于Q-CSS,它通过使用特殊标记“ [MASK]”替换原始问题中的关键单词来合成反事实问题。同样,反事实问题和原始图像构成了一个新的VQ对。给定一个VQ对(来自V-CSS或Q-CSS),标准VQA训练样本三元组仍需要相应的真实答案。为避免昂贵的人工注释,我们设计了一种动态答案分配机制,以近似所有合成VQ对的真实答案(例如,图2中的“非绿色”)。然后,我们使用所有原始样本和合成样本训练VQA模型。经过大量互补样本训练后,VQA模型被迫专注于关键对象和单词。广泛的消融包括定性和定量结果都证明了CSS的有效性。 CSS可以无缝地集成到基于集成的方法中,这不仅提高了它们的视觉可解释性和对问题敏感的能力,而且还不断提高了VQA-CP的性能。

        VQA任务的通用表述是一个多类分类问题, 在不失一般性的前提下,给定由图像,问题和答案三元组组成的数据集

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值