【深度学习系列（五）】：基于tensorflow的CRNN实现（1）：论文阅读

最新推荐文章于 2020-12-20 18:04:22 发布

wxplol

最新推荐文章于 2020-12-20 18:04:22 发布

阅读量1.1k

点赞数

分类专栏：深度学习

原文链接：https://arxiv.org/pdf/1507.05717v1.pdf

版权

深度学习专栏收录该内容

27 篇文章 17 订阅

订阅专栏

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

作者:Xiang Bai(个人主页:http://mc.eistar.net/~xbai/)
论文的下载地址：https://arxiv.org/pdf/1507.05717v1.pdf
代码的下载地址：http://mc.eistar.net/~xbai/CRNN/crnn_code.zip

摘要

与以前的场景文本识别系统相比，所提出的架构具有四个不同的特性：（1）与大多数现有的组件需要单独训练和协调的算法相比，它是端对端训练的。（2）它自然地处理任意长度的序列，不涉及字符分割或水平尺度归一化。（3）它不仅限于任何预定义的词汇，并且在无词典和基于词典的场景文本识别任务中都取得了显著的表现。（4）它产生了一个有效而小得多的模型，这对于现实世界的应用场景更为实用。

1. 引言

CRNN与传统神经网络模型相比具有一些独特的优点：1）可以直接从序列标签（例如单词）学习，不需要详细的标注（例如字符）；2）直接从图像数据学习信息表示时具有与DCNN相同的性质，既不需要手工特征也不需要预处理步骤，包括二值化/分割，组件定位等；3）具有与RNN相同的性质，能够产生一系列标签；4）对类序列对象的长度无约束，只需要在训练阶段和测试阶段对高度进行归一化；5）与现有技术相比，它在场景文本（字识别）上获得更好或更具竞争力的表现，它比标准DCNN模型包含的参数要少得多，占用更少的存储空间。

2. 网络架构

主要有三部分组成：1) 卷积层，从输入图像中提取特征序列；2) 循环层，预测每一帧的标签分布（进一步文字序列特征，最终得到预测概率的序列输出）；3) 转录层，将每一帧的预测变为最终的标签序列（将RNN输出做softmax后，为字符输出。）。

2.1. 特征序列提取

在CRNN模型中，通过采用标准CNN模型（去除全连接层）中的卷积层和最大池化层来构造卷积层。这样的组件用于从输入图像中提取序列特征表示。（由于所有图像在提取特征之前会缩放到相同的高度，所以得到的特征的具有相同的高度，不同的只是宽度，而每一个列代表了一个输出的特征向量序列，这里也说明CRNN能够处理不定长的文本序列，不定长的宽度也代表了不同时间的序列输入）。

2.2. 序列标注

LSTM是定向的，它只使用过去的上下文。基于图像的序列中，两个方向的上下文是相互有用且互补的（图像中的文本ji）。因此，我们采用双向LSTM。堆叠多个双向LSTM，得到深层双向LSTM，深层结构允许比浅层抽象更高层次的抽象。

2.3. 转录

转录是将RNN所做的每帧预测转换成标签序列的过程。数学上，转录是根据每帧预测找到具有最高概率的标签序列。在实践中，存在两种转录模式，即无词典转录和基于词典的转录。词典是一组标签序列，预测受拼写检查字典约束。在无词典模式中，预测时没有任何词典。在基于词典的模式中，通过选择具有最高概率的标签序列进行预测。

2.3.1 标签序列的概率

采用联接时间分类（CTC）层中定义的条件概率。按照每帧预测y=y1,...,yTy=y1,...,yT对标签序列ll定义概率，并忽略ll中每个标签所在的位置。因此，当我们使用这种概率的负对数似然作为训练网络的目标函数时，我们只需要图像及其相应的标签序列，避免了标注单个字符位置的劳动。

在实际情况中，标记这种对齐样本非常困难（除了标记字符，还要标记每个字符的位置），工作量非常大另外，由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。

当然这种问题同样存在于语音识别领域。例如有人说话快，有人说话慢，那么如何进行语音帧对齐，是一直以来困扰语音识别的巨大难题。

所以CTC提出一种对不需要对齐的Loss计算方法，用于训练网络，被广泛应用于文本行识别和语音识别中。

参考链接：

一文读懂CRNN+CTC文字识别

条件概率的公式简要描述如下：输入是序列 $y=y_{1},...,y_{T}$ ，其中 $y_{T}$ 是时间T序列时的输出。这里，标签是由所有标签（例如，所有英文字符），以及由-表示的“空白”标签组成。序列到序列的映射函数 $\beta$ 变换定义路径 $\pi$ 到上的映射,例如， $\beta$ 变换将“–hh-e-l-ll-oo–”（-表示blank）映射到“hello”。然后，条件概率被定义为由 $\beta$ 变换到上的所有 $\pi$ 的概率之和：