【论文精读】LaTr: Layout-Aware Transformer for Scene-Text VQA

M号攻城狮

已于 2022-12-13 09:47:13 修改

阅读量928

点赞数 1

分类专栏：论文阅读文章标签： transformer 深度学习人工智能

于 2022-12-09 19:25:32 首次发布

本文链接：https://blog.csdn.net/weixin_53215555/article/details/128256758

版权

概述

1. 核心问题：
STVQA（Scene-Text Visual Question Answering）场景文本视觉问答，利用场景图片中的文本回答问题
（相关概念： OCR（Optical Character Recognition）图片文字识别）
需要利用多种模态的语义信息进行推理（视觉、语言、场景文本）
需要模型具有的能力：
（1）先验信息和知识
（2）利用视觉、语言、场景文本信息做推理

2. 研究背景：
在这里插入图片描述
大概分为三种问题：
（1）仅仅用文本信息可以回答
（2）用文本和空间布局信息可以回答
（3）用文本、空间布局信息和视觉特征可以回答
（在当前的数据集下，大多数问题都属于前两类）