深度学习中的VQA(视觉问答)技术

最新推荐文章于 2024-07-30 18:24:59 发布

AI伐木累

最新推荐文章于 2024-07-30 18:24:59 发布

阅读量4.4k

点赞数

视觉问答（Visual Question Answering，VQA）是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果，我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。

目前的方法一般来说，我们可以概述VQA中的方法如下：

从问题中提取特征。
从图像中提取特征。
结合这些特征来生成答案。
对于文本特征，可以使用诸如Bag-Of-Words（BOW）或Long Short Term Memory（LSTM）编码器等技术。就图像特征而言，在ImageNet上预先训练的CNN是最常用的选择。关于答案的生成，这些方法通常将问题建模为分类任务。

在这里插入图片描述
因此，几种方法的主要区别在于它们如何将文本特征和图像特征结合起来。例如，它们可以简单地使用串联将它们组合，然后提供一个线性分类器。或者它们可以使用贝叶斯模型来推断问题，图像和答案的特征分布之间的基础关系。
建议阅读由Kafle和Kanan撰写的关于VQA的优秀调查

基于关注（attention）的方法

基于关注的方法的目标是将算法的重点放在输入的最相关部分上。例如，如果问题是“球是什么颜色？”，则包含球的图像区域比其他球体更相关。用同样的方式，“颜色”和“球”这两个词，比其他的词更加attention。
VQA中最常见的选择是利用空间注意力来生成特定区域的特征来训练CNN。有两种常见的方法来获取图像的空间区域。首先，通过在图像上投射网格。

在这里插入图片描述
使用网格将注意力集中到一起
网格应用后，每个区域的相关性由具体问题决定。

提出自动生成的边界框。

详细内容如下：

VQA视觉问答

关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
深度学习中的VQA(视觉问答)技术

视觉问答（Visual Question Answering，VQA）是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果，我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。详细内容如下：VQA视觉问答...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。