VQACL:一种新颖的视觉问答持续学习设置

本文提出了一种新的视觉问答(VQA)持续学习设置VQACL,模拟真实世界的多模态数据流,并测试模型的组合推理能力。通过双层级任务序列和组合测试,VQACL挑战了模型的泛化和防止遗忘。作者提出了一种表示学习方法,利用样本特定和样本不变特征来优化VQA性能。实验表明,这种方法在VQACL设置下表现出优越的性能。
摘要由CSDN通过智能技术生成

引用:Zhang X, Zhang F, Xu C. VQACL: A Novel Visual Question Answering Continual Learning Setting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 19102-19112.

cce762a0c494a3839e6862f4440c5b41.png

导读

在单模态领域已经取得了一系列关于持续学习(continual learning)的工作,但对于多模态任务,如视觉问答(visual question answering,VQA),关注却相对较少。在本文中,我们建立了一个新颖的VQA持续学习设置,命名为VQACL,其中包含两个关键组成部分:双层级任务序列,其中嵌套了视觉和语言数据,以及包含新的技能-概念组合的新型组合测试。前者致力于模拟真实世界中不断变化的多模态数据流,而后者旨在衡量模型对认知推理的泛化能力。

基于我们的VQACL,我们对五种成熟的持续学习方法进行了深入的评估,并观察到它们存在灾难性遗忘,且通用性较弱。为了解决上述问题,我们提出了一种新的表示学习方法,它利用特定样本和样本不变特征来学习对VQA具有区分性和可泛化的表示。此外,通过分别提取视觉和文本输入的这种表示,我们的方法可以明确地解耦技能和概念。大量的实验证明,我们的方法在性能上显著优于现有模型,展示了所提方法的有效性和组合性。

本文贡献

  • 我们提出了一个新的持续学习设置,VQACL,以模拟真实世界的生成式视觉问答。它不仅可以同时处理来自视觉和语言模态的连续数据,还可以测试模型在认知推理中的组合能力。

  • 我们为持续 VQA 提出了一种简单但有效的表示学习方法,该方法新颖地利用了具有区分性的样本特定特征和具有泛化能力的样本不变特征,以减轻遗忘并增强模型的组合能力。

  • 我们重新评估了五种已有的持续学习方法在我们提出的VQACL上的表现,并观察到它们难以取得令人满意的结果。值得注意的是,我们的模型始终保持最佳性能,突显了我们方法的有效性和组合性。

VQA持续学习设置

问题定义

本文将视觉问答(VQA)问题定义为一个生成任务,即在给定一张图像和一个问题的情况下,自动生成文本答案。与传统的离线训练不同࿰

  • 22
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值