【论文精读】LaTr: Layout-Aware Transformer for Scene-Text VQA

概述

1. 核心问题:
STVQA(Scene-Text Visual Question Answering)场景文本视觉问答
,利用场景图片中的文本回答问题
(相关概念: OCR(Optical Character Recognition)图片文字识别)
需要利用多种模态的语义信息进行推理(视觉、语言、场景文本)
需要模型具有的能力:
(1)先验信息和知识
(2)利用视觉、语言、场景文本信息做推理

2. 研究背景:
在这里插入图片描述
大概分为三种问题:
(1)仅仅用文本信息可以回答
(2)用文本和空间布局信息可以回答
(3)用文本、空间布局信息和视觉特征可以回答
(在当前的数据集下,大多数问题都属于前两类)

引用2020年的工作:TAP方法(text-aware pre-training)【缺陷是:获取大量带有场景文本的自然图片是困难的,并且获取到的图片中的文本比较稀疏;更重要的是,在设计预训练目标函数时没有考虑到空间布局信息和语义表征的融合】

Contributions:
(1)认识到文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>