视觉问答学习（二）——堆叠注意力网络SAAA（tensorflow实现）(未完待续)

最新推荐文章于 2024-08-18 10:20:07 发布

全部梭哈迟早暴富

最新推荐文章于 2024-08-18 10:20:07 发布

阅读量689

点赞数

分类专栏： # 视觉问答学习视觉问答(VQA)相关

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/z704630835/article/details/107252690

版权

本文档介绍了基于Tensorflow实现的视觉问答模型SAAA，源自《Show, Ask, Attend, and Answer》论文。文章详细讨论了模型背景，包括数据集的处理变化，并概述了实验流程，包括环境配置、数据准备、模型结构和训练过程。" 6451160,1022329,SQL Server与Excel的数据交互操作指南,"['sql server', 'excel', 'microsoft', '数据交互']

摘要由CSDN通过智能技术生成

一、背景

本文实现的模型来自于论文：《Show, Ask,Attend, and Answer: A Strong Baseline For Visual Question Answering》

该模型比较经典，也是本系列的第二篇视觉问答模型，主要参考代码【1】，但是由于原模型中，数据集封装的比较好，复现到其他数据集上的话会比较困难，因此我把数据集部分的读取和加载做了改动。

【1】https://github.com/momih/vqa_tensorflow

二、论文简介

这篇论文之前介绍过，这里不多做介绍，直接给出之前的记录：【文献阅读】SAAA——堆叠多层注意力的VQA网络（T. Do等人，ArXiv，2017，有代码）。方便起见，这里贴出该模型的结构图：

三、实验介绍

所有文件结构为：

-- d

最低0.47元/天解锁文章

全部梭哈迟早暴富

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

全部梭哈迟早暴富 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。