【论文精读】LaTr: Layout-Aware Transformer for Scene-Text VQA

概述

1. 核心问题:
STVQA(Scene-Text Visual Question Answering)场景文本视觉问答
,利用场景图片中的文本回答问题
(相关概念: OCR(Optical Character Recognition)图片文字识别)
需要利用多种模态的语义信息进行推理(视觉、语言、场景文本)
需要模型具有的能力:
(1)先验信息和知识
(2)利用视觉、语言、场景文本信息做推理

2. 研究背景:
在这里插入图片描述
大概分为三种问题:
(1)仅仅用文本信息可以回答
(2)用文本和空间布局信息可以回答
(3)用文本、空间布局信息和视觉特征可以回答
(在当前的数据集下,大多数问题都属于前两类)

引用2020年的工作:TAP方法(text-aware pre-training)【缺陷是:获取大量带有场景文本的自然图片是困难的,并且获取到的图片中的文本比较稀疏;更重要的是,在设计预训练目标函数时没有考虑到空间布局信息和语义表征的融合】

Contributions:
(1)认识到文

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是一个简单的C++函数,可以将经纬度坐标转换为UTM坐标: ```c++ #include <cmath> const double PI = 3.14159265358979323846; const double a = 6378137.0; // WGS 84 地球长半轴 const double k0 = 0.9996; const double e = 0.0818191910428; // WGS 84 地球偏心率 const double e2 = e * e; const double ep2 = (e2) / (1 - e2); int LatLonToUTM(double lat, double lon, int &zone, double &x, double &y) { // 计算带号 zone = (int)floor((lon + 180.0) / 6.0) + 1; double lon0 = zone * 6.0 - 183.0; // 将经纬度转换为弧度 double latr = lat * PI / 180.0; double lonr = lon * PI / 180.0; double lon0r = lon0 * PI / 180.0; // 计算参数 double N = a / sqrt(1 - e2 * sin(latr) * sin(latr)); double T = tan(latr) * tan(latr); double C = ep2 * cos(latr) * cos(latr); double A = cos(latr) * (lonr - lon0r); // 计算UTM坐标 double M = a * ((1 - e2 / 4 - 3 * e2 * e2 / 64 - 5 * e2 * e2 * e2 / 256) * latr - (3 * e2 / 8 + 3 * e2 * e2 / 32 + 45 * e2 * e2 * e2 / 1024) * sin(2 * latr) + (15 * e2 * e2 / 256 + 45 * e2 * e2 * e2 / 1024) * sin(4 * latr) - (35 * e2 * e2 * e2 / 3072) * sin(6 * latr)); x = k0 * N * (A + (1 - T + C) * pow(A, 3) / 6 + (5 - 18 * T + T * T + 72 * C - 58 * ep2) * pow(A, 5) / 120); y = k0 * (M + N * tan(latr) * (A * A / 2 + (5 - T + 9 * C + 4 * C * C) * pow(A, 4) / 24 + (61 - 58 * T + T * T + 600 * C - 330 * ep2) * pow(A, 6) / 720)); if (lat < 0) { y += 10000000.0; // 南半球加 10000000 米 } return 0; } ``` 这个函数接收经度和纬度,然后计算出对应的UTM带号、x和y坐标,并将它们存储在传入的引用变量中。请注意,这个函数只能处理WGS 84椭球体的坐标。如果您正在处理其他的椭球体或大地基准,请相应地修改公式中的常数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值