深度学习中的VQA(视觉问答)技术

视觉问答(Visual Question Answering,VQA)是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果,我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。

目前的方法一般来说,我们可以概述VQA中的方法如下:

  • 从问题中提取特征。
  • 从图像中提取特征。
  • 结合这些特征来生成答案。
    对于文本特征,可以使用诸如Bag-Of-Words(BOW)或Long Short Term Memory(LSTM)编码器等技术。就图像特征而言,在ImageNet上预先训练的CNN是最常用的选择。关于答案的生成,这些方法通常将问题建模为分类任务。

在这里插入图片描述
因此,几种方法的主要区别在于它们如何将文本特征和图像特征结合起来。例如,它们可以简单地使用串联将它们组合,然后提供一个线性分类器。或者它们可以使用贝叶斯模型来推断问题,图像和答案的特征分布之间的基础关系。
建议阅读由Kafle和Kanan撰写的关于VQA的优秀调查

基于关注(attention)的方法

基于关注的方法的目标是将算法的重点放在输入的最相关部分上。例如,如果问题是“球是什么颜色?”,则包含球的图像区域比其他球体更相关。用同样的方式,“颜色”和“球”这两个词,比其他的词更加attention。
VQA中最常见的选择是利用空间注意力来生成特定区域的特征来训练CNN。有两种常见的方法来获取图像的空间区域。首先,通过在图像上投射网格。

在这里插入图片描述
使用网格将注意力集中到一起
网格应用后,每个区域的相关性由具体问题决定。

提出自动生成的边界框。

详细内容如下:

VQA视觉问答

  • 0
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值