引用:Zhang X, Zhang F, Xu C. VQACL: A Novel Visual Question Answering Continual Learning Setting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 19102-19112.
![cce762a0c494a3839e6862f4440c5b41.png](https://i-blog.csdnimg.cn/blog_migrate/337cb684dca49595f93fd6669242f30c.png)
导读
在单模态领域已经取得了一系列关于持续学习(continual learning)的工作,但对于多模态任务,如视觉问答(visual question answering,VQA),关注却相对较少。在本文中,我们建立了一个新颖的VQA持续学习设置,命名为VQACL,其中包含两个关键组成部分:双层级任务序列,其中嵌套了视觉和语言数据,以及包含新的技能-概念组合的新型组合测试。前者致力于模拟真实世界中不断变化的多模态数据流,而后者旨在衡量模型对认知推理的泛化能力。
基于我们的VQACL,我们对五种成熟的持续学习方法进行了深入的评估,并观察到它们存在灾难性遗忘,且通用性较弱。为了解决上述问题,我们提出了一种新的表示学习方法,它利用特定样本和样本不变特征来学习对VQA具有区分性和可泛化的表示。此外,通过分别提取视觉和文本输入的这种表示,我们的方法可以明确地解耦技能和概念。大量的实验证明,我们的方法在性能上显著优于现有模型,展示了所提方法的有效性和组合性。
本文贡献
我们提出了一个新的持续学习设置,VQACL,以模拟真实世界的生成式视觉问答。它不仅可以同时处理来自视觉和语言模态的连续数据,还可以测试模型在认知推理中的组合能力。
我们为持续 VQA 提出了一种简单但有效的表示学习方法,该方法新颖地利用了具有区分性的样本特定特征和具有泛化能力的样本不变特征,以减轻遗忘并增强模型的组合能力。
我们重新评估了五种已有的持续学习方法在我们提出的VQACL上的表现,并观察到它们难以取得令人满意的结果。值得注意的是,我们的模型始终保持最佳性能,突显了我们方法的有效性和组合性。
VQA持续学习设置
问题定义
本文将视觉问答(VQA)问题定义为一个生成任务,即在给定一张图像和一个问题的情况下,自动生成文本答案。与传统的离线训练不同