BTTR论文翻译

wxplol

已于 2022-10-25 22:46:47 修改

阅读量1.4k

点赞数

分类专栏：公式识别文章标签： transformer 深度学习人工智能

于 2022-06-19 22:49:40 首次发布

本文链接：https://blog.csdn.net/wxplol/article/details/125363767

版权

公式识别专栏收录该内容

10 篇文章

订阅专栏

文章目录

论文链接： https://arxiv.org/abs/2105.02412

代码地址：https://github.com/Green-Wood/BTTR

一、Abstract

本文采用基于transformer的解码器代替基于RNN的解码器，使整个模型体系结构更加简洁。此外，还引入了一种新的训练策略来充分利用transformer在双向语言建模中的潜力。

二、Introduction

现存的方法在不同程度上存在覆盖范围缺乏的问题。这个问题主要由两种表现形式：过度解析和解析不足的问题。过度解析意味着HME图像中的某些区域被多次冗余翻译，而不足解析则表示某些区域仍然未翻译。

大多数编-解码模型都是基于RNN的模型，它们很难建模出相距很远的两个符号之间的关系。先前的研究已注意到这种由梯度消失引起的长期依赖问题。这个问题在HMER任务中暴露得更为明显。与传统的自然语言处理相比，Latex是人类设计的一种标记语言，因此具有更清晰、更清晰的句法结构，例如，“{”和“}”必然会成对出现。在处理长Latex序列时，基于RNN的模型很难捕获两个遥远的“{”和“}”符号之间的关系，这导致基于Latex语法规范的识别错误。

传统的自回归模型在推理阶段使用从左到右(L2R)方向逐个预测符号。这种方法可能产生不平衡的输出，其前缀通常比后缀更准确。为了克服这一问题，现有的研究采用了两个独立的解码器，分别从左到右和从右到左的方向训练。然而，这通常会导致更多的参数和更长的训练时间。因此，一个直接的尝试就是采用一个单一的解码器来进行双向语言建模。

在本文中，我们将transformer解码器应用到HMER任务中，通过使用位置编码，缓解了中覆盖问题的不足。此外，还提出了一种新的双向训练策略来获得双向训练变换器(BTTR)模型。该策略使单个transformer器解码器能够同时执行L2R和R2L解码。我们进一步证明了我们的BTTR模型在训练并行化和推断方面都优于基于RNN的模型。

三、 Related Work

3.1、HMER Methods

手写字公式识别的方法可以分为两类：基于语法和基于编-解码。

基于语法

这些方法通常包括符号分割、符号识别和结构分析三个部分。研究人员提出了多种预定义语法来解决HMER任务，如随机上下文无关语法、关系语法和定子句语法。这些语法规则都不是由数据驱动的，而是手工设计的，它们不能从大型数据集中获益。

基于编-解码

在HMER任务中，Zhang等观察到缺乏覆盖问题，提出了WAP模型来解决HMER任务。在后续的研究中，DenseWAP用DenseNet编码器取代了WAP中的VGG编码器，并提高了性能。此外DenseWAP-TD通过用树形解码器替换字符串解码器，增强了模型处理复杂公式的能力。Wu等人使用笔画信息，并将HMER制定为一个图到图(G2G)建模任务。这种基于编解码器的模型在多个CROHME竞赛中取得了优异的成绩。

3.2、Transformer

transformer是一种完全基于注意机制的神经网络结构。其内部的自注意机制使transformer相比于RNN取得了两个方面突破。首先，transformer不需要像RNN那样依赖于上一步的状态。并行化使transformer在训练阶段节省大量时间。其次，同一序列中的标记通过自注意机制直接建立一对一连接。这种机制从根本上解决了RNN的梯度消失问题，使变压器比RNN更适用于长序列。近年来，在计算机视觉和自然语言处理的各种任务中，RNN被变压器所取代。

3.3、Right-to-Left Language Modeling

略

四、Methodology

图1 BTTR模型架构

4.1、CNN编码器

在编码器部分，使用DenseNet作为HME图像的特征提取器。

4.2、位置编码

由于transformer模型本身对每个输入向量没有任何位置感，因此我们使用两种类型的位置编码来处理这些信息。详细地说，我们分别使用图像位置编码和词位置编码来表示图像特征位置和词向量位置。

词向量位置编码（Word Positional Encoding）

对于给定的位置 $p os$ 和维度 $d$ ，则词向量位置编码定义为：
$p^{W}_{pos,d}[2i]=sin(pos/1000^{2i/d}) \\ p^{W}_{pos,d}[2i+1]=cos(pos/1000^{2i/d})$
图像位置编码（Image Positional Encoding）

采用二维归一化位置编码来表示图像的位置特征。我们首先计算正弦位置编码 $p^{W}_{pos,d/2}$ ，然后将它们连接在一起。给定一个二维位置坐标（x、y），且与字位置编码相同的维数d，将图像位置编码向量 $p^{I}_{x、y、d}$ 表示为：
$\bar x=\frac{x}{H},\bar y=\frac{y}{W} \\ P^{I}_{x,y,d}=[p^{W}_{\bar x,d/2};p^{W}_{\bar y,d/2}]$

4.3、transformer编码器

每个基本的transformer层模块由四个基本部分组成。

比例缩放的点积注意力（Scaled Dot-Product Attention）

这种注意机制本质上是基于查询和键之间的相似性，使用查询从键-值对中获取值。
$Attention(Q,K,V)=softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$
参考链接：

为什么 dot-product attention 需要被 scaled？

多头注意力（Multi-Head Attention）

通过多头机制，比例缩放的点积注意力模块可以共同关注多个表示子空间的特征映射。
$H_{i}=Attention(QW^{Q}_{i},KW^{K}_{i},VW^{V}_{i})\\ MultiHead(Q,K,V)=[H_{1};...;H_{h}]W^{o}$
带掩模的多头注意力（Masked Multi-Head Attention）

在解码器部分，由于自回归特性，根据输入图像和先前生成的符号来预测下一个符号。在训练阶段，使用一个下三角形掩模矩阵，使自注意模块能够限制每个时间步长的注意区域。由于掩模的多头注意机制，整个训练过程只需要一次前向计算。

位置前馈网络（Position-wise Feed-Forward Network）

位置前馈网络(FNN)由三个操作组成：一个线性变换、一个ReLU激活函数和另一个线性变换。经过多头注意，不同步长之间的信息已经充分交换。FFN使每个步长能够单独整合自己的内部信息。
$FFN(x)=max(0,xW_{1}+b_{1})W_{2}+b_{2}$

4.4、双向训练策略

首先，在字典中引入了两个特殊的符号“ $< SOS >$ ”和“ $< EOS >$ ”来表示序列的开始和结束。对于目标Latex序列 $y=\{y_{1},...y_{T}\}$ ，我们将目标序列:

从左到右(L2R)表示为： $\vec y=\{<SOS>，y_{1}，…，y_{T}，<EOS>\}$ ，

从右到左(R2L)表示为： $\overleftarrow y=\{<EOS>，y_{T}，…，y_{1}，<SOS>\}$

以图像x和模型参数θ为条件，传统的自回归模型需要计算概率分布：
$p(\vec y_{j}|\vec y_{<j}，x，θ)$
j是目标序列中的索引。

在本文中，由于transformer模型本身实际上并不关心输入符号的顺序，因此我们可以使用单个transformer解码器来进行双向语言建模。
$p(\overleftarrow y_{j}|\overleftarrow y_{<j}，x，θ)$
为了实现这一目标，提出了一种简单而有效的双向训练策略，对于每个训练样本，我们将Latex序列生成两个目标序列L2R和R2L，并计算同一批的训练损失。与单向语言建模相比，我们的方法训练了一个模型，在不牺牲模型简洁性的情况下执行双向语言建模。

五、 Implementation Details

5.1、网络（Networks）

在编码器部分，为了与当前最好的方法进行公平的比较，我们使用了与DenseWAP模型相同的DenseNet特征提取器。具体来说，在主干网络中使用了bottleneck层，并在它们之间添加过渡层，以减少特征图的数量。在每个bottleneck中，我们将增长率设置为k=24，每个块的深度设置为D=16，过渡层的压缩超参数设置为θ=0.5。

在解码器部分，我们使用了标准的transformer模型。我们将embedded维度和模型维度设置为d=256，多头注意模块的头数设置为H=8，FFN中间层维数设置为d=1024，transformer层数设置为N=3。dropout设置为0.3用来防止过拟合。

5.2、训练（Training）

我们的训练目标是使预测真实标签的概率最大化，所以我们使用标准的交叉熵损失函数来计算在每个编码位置真实值与预测概率之间的损失。给定训练样本 $\{x^{(z)}、y^{(z)}\}^{Z}_{z=1}$ ，优化的目标函数如下：
$\vec L^{(z)}_{j}(\theta)=-logp(\vec y^{(z)}_{j}|\vec y^{(z)}_{<j},x^{(z)},\theta) \\ \overleftarrow L^{(z)}_{j}(\theta)=-logp(\overleftarrow y^{(z)}_{j}|\overleftarrow y^{(z)}_{<j},x^{(z)},\theta) \\ L(\theta)=\frac{1}{2ZL}\sum^{Z}_{z=1}\sum^{L}_{z=1,j=1}(\vec L^{(z)}_{j}(\theta)+\overleftarrow L^{(z)}_{j}(\theta))$
该模型使用Adadelta算法从头开始进行训练，权重衰减为10−4，ρ=0.9， $\epsilon$ =10−6。使用PyTorch框架来实现。该模型在四个NVIDIA 1080Ti gpu上进行训练，具有11×4GB内存。

5.3、前向推理（ Inferencing）

可用如下计算公式得到Latex序列：
$\hat y=argmaxp(y|x,\theta)$
x为输入图像，θ为模型参数。

不像训练阶段，使用下三角掩模矩阵同时生成所有时间步长的预测。由于我们没有真实的标签，所以我们只能逐个地预测符号，直到“End”符号或达到预定义的最大长度。

显然，我们不能搜索所有可能的序列，因此提出了一种启发式集束搜索（beam search）来平衡计算成本和决策质量。此外，利用我们的解码器能够进行双向语言建模，使用近似联合搜索来提高性能。其基本思想包括三个步骤：（1）首先，在L2R和R2L方向上使用双向训练的transformer进行波束搜索，得到两个前k的最好预测。（2）然后，我们将L2R假设反转为R2L方向，将R2L假设转化为L2R方向，并将这些假设作为真实标签，计算训练阶段的损失值。（3）最后，将这些损失值加到它们原来的假设分数中，得到最终的分数，然后用于找到最佳候选值。在实践中，我们设置光束大小为k=10，最大长度为200，长度惩罚为α=1.0。