一、背景
本文实现的模型来自于论文:《Show, Ask,Attend, and Answer: A Strong Baseline For Visual Question Answering》
该模型比较经典,也是本系列的第二篇视觉问答模型,主要参考代码【1】,但是由于原模型中,数据集封装的比较好,复现到其他数据集上的话会比较困难,因此我把数据集部分的读取和加载做了改动。
【1】https://github.com/momih/vqa_tensorflow
二、论文简介
这篇论文之前介绍过,这里不多做介绍,直接给出之前的记录:【文献阅读】SAAA——堆叠多层注意力的VQA网络(T. Do等人,ArXiv,2017,有代码)。方便起见,这里贴出该模型的结构图:
三、实验介绍
所有文件结构为:
-- d