Stacked Attention Networks for Image Question Answering(用于图像问答的堆叠注意力网络)
本文介绍了堆叠注意力网络(SAN),该网络学习从图像中回答自然语言问题。SAN使用问题的语义表示作为查询来搜索图像中与答案相关的区域。我们认为,图像问答通常需要多个步骤的推理。因此,我们开发了一个多层SAN,在其中我们多次查询图像以逐步推断答案。在四个图像QA数据集上进行的实验表明,所提出的SAN显著优于以前最先进的方法。注意力层的可视化显示了SAN逐层定位相关视觉线索以获得问题答案的过程。...
原创
2022-07-28 09:12:49 ·
840 阅读 ·
1 评论