![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
vqa学习之路
文章平均质量分 75
神奇的阳哥1573
我本科就读于西北工业大学计算机专业,目前在北京大学攻读EDA方向的博士学位。
展开
-
VQA学习(四) TextVQA——LoRRA
一、TextVQA拟解决的问题许多的vqa问题包含图像中的文字信息。之前的VQA模型无法解决。TextVQA与传统VQA的的区别是:识别出图片中的文字信息,从这些文字、图像信息及相关推理中预测答案TextVQA需要解决的主要问题如下所示 辨别出问题问的是有关文本的信息 检测出包含文本的区域 文本的图像信息转化成文本表示 分析各种特种从而关注到正确的文本区域 最终的答案是否需要对文本表示再处理 二、LoRRA(Look,Read,Reas.原创 2021-06-05 12:31:43 · 1618 阅读 · 1 评论 -
VQA学习(三)BUTD注意力机制
BUTD(Bottom-Up and Top-Down Attention)论文解读传统的注意力模型,各区域对应等大的网格,没有与图像中的内容相关。文中提出一种方法,结合自下而上与自上而下的注意力机制。一、自下而上的注意力模型注意力区域:bounding box,如上面右图所示。使用Faster RCNN实现自下而上的注意力模型Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替Fast R-CNN中的Selective.原创 2021-06-04 17:11:53 · 1435 阅读 · 0 评论 -
VQA学习笔记(二) SAN多层注意力堆叠模型论文解读
SAN多层注意力堆叠模型论文解读论文链接 https://arxiv.org/pdf/1511.02274.pdf一、摘要We argue that image question answering (QA) often requires multiple steps of reasoning. Thus, we develop a multiple-layer SAN in which we query an image multiple times to infer the answer p原创 2021-06-02 21:05:29 · 961 阅读 · 0 评论 -
VQA学习笔记(一)CNN-LSTM
笔者小白,初学VQA,如有不对之处还请指教。mmf是什么?官方提供的README中是这么说的:MMF is a modular framework for vision and language multimodal research from Facebook AI Research. MMF contains reference implementations of state-of-the-art vision and language models and has powered multi原创 2021-06-01 16:11:20 · 1874 阅读 · 2 评论