OCR文字识别——解码方法

最新推荐文章于 2024-04-05 21:22:57 发布

gogogoers

最新推荐文章于 2024-04-05 21:22:57 发布

阅读量376

点赞数 1

文章标签： ocr

本文链接：https://blog.csdn.net/yaleyalee/article/details/131091691

版权

文章介绍了OCR文字识别中的关键步骤——特征提取和解码算法。CRNN结合了CNN和BiLSTM用于特征抽取，而解码过程涉及CTC、Attention和ACE三种方法，分别处理输入输出对齐的问题。CTC通过blank字符进行序列对齐，Attention利用上下文信息解码，ACE则采用弱监督学习策略。每种方法有其优缺点，适用于不同场景。

摘要由CSDN通过智能技术生成

常用的特征提取方法CRNN，最后介绍3种常用的解码算法CTC/Attention/ACE

1.CRNN

CRNN的特征抽取器由一个CNN和一个BiLSTM组成，其中BiLSTM使用的是stack形深层双向LSTM结构。

CRNN特征提取器流程如下：

1.假设输入图像尺寸为32x100x3(HxWxC)，经过CNN转换成1x25x512(HxWxC)。

2.将CNN的输出维度转换为25个1x512的序列，送入深层双向LSTM中，得到CRNN的输出特征，维度转换成为25xn(n是字符集合总数)。

OCR文字识别的难点

OCR文字识别的解码主要难点在于如何进行输入输出的对齐。如上图所示，如果每个1xn预测一个字符，那么可能会出现多个1xn预测同一个字符，这样子得到的最终结果会产生重复字符。所以需要设计针对文字识别的解码算法来解决输入输出的对齐问题。

目前我了解到的主要有三种解码方法，可以解决OCR解码的一对多问题，分别为CTC、Attention和ACE三种。

CTC

CTC是最为经典的OCR解码算法，假设CRNN特征抽取器的输出维度Txn，其中T=8，n包含blank(记作 - )字符(blank字符是间隔符，意思是前后字符不连续)。对每一列1xn进行softmax得到概率最大的字符，得到的最终序列需要去除连续的重复字符，比如最终得到的序列为-stt-ate，那么去重合并后就得到state序列。

那么state的序列概率就变成了所有去重合并后为state的字符序列概率之和，只要最大化字符序列概率，就可以优化CRNN+CTC的文字识别算法。由于每个字符前后都可以插入blank，所以可以将所有可能状态如下图展开。

Attention

基于Attention的OCR解码算法，把OCR文字识别当成文字翻译任务，即通过Attention Decoder出文字序列。

RNN -> Seq2Seq

左图是经典的RNN结构，右图是Seq2Seq结构。RNN的输入序列和输出序列必须有相同的时间长度，而机器翻译以及文字识别任务都是输入输出不对齐的，不能直接使用RNN结构进行解码。于是在Seq2Seq结构中，将输入序列进行Encoder编码成一个统一的语义向量Context，然后送入Decoder中一个一个解码出输出序列。在Decoder解码过程中，第一个输入字符为<start>，然后不断将前一个时刻的输出作为下一个时刻的输入，循环解码，直到输出<stop>字符为止。

Seq2Seq -> Attention Decoder

Seq2Seq把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个Context可能存不下那么多信息，就会造成精度的下降。除此之外，如果按照上述方式实现，只用到了编码器的最后一个隐藏层状态，信息利用率低下。

所以如果要改进Seq2Seq结构，最好的切入角度就是：利用Encoder所有隐藏层状态解决Context长度限制问题。于是Attention Decoder在Seq2Seq的基础上，增加了一个Attention Layer，如上图所示。

ACE

基于ACE的解码方法不同于CTC和Attention，ACE的监督信号实际上是一种弱监督(输入输出没有做形式上的对齐，没有先后顺序信息，倾向于学习表征)，并且可以用于多行文字识别。

对于单行文字，假设输出维度为Txn(T是序列长度，n是字符集合总数)，那么第k个字符出现的总数为，然后除以T，就能得到第k个字符出现的概率分布(记作�¯�)，做相同计算，可以求出所有字符的概率分布，最后和label字符的概率分布计算交叉熵优化网络。同理，对于多行文字，只需要将HxW压缩成T=HW，然后计算所有字符的概率分布即可。

算法比较

由于Attention依赖于上一个预测结果，导致只能串行解码，推理速度影响较大，但是可以得到语言模型做pretrain迁移使用；而CTC可以通过引入blank字符做形式上对齐，并且通过HMM前向-后向算法加速；ACE则直接不依赖顺序信息，直接估计整体分布。三者各有利弊，实际使用时，需要结合具体任务按需使用。

gogogoers

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
OCR文字识别——解码方法

在Decoder解码过程中，第一个输入字符为<start>，然后不断将前一个时刻的输出作为下一个时刻的输入，循环解码，直到输出<stop>字符为止。，然后除以T，就能得到第k个字符出现的概率分布(记作�¯�)，做相同计算，可以求出所有字符的概率分布，最后和label字符的概率分布计算交叉熵优化网络。对每一列1xn进行softmax得到概率最大的字符，得到的最终序列需要去除连续的重复字符，比如最终得到的序列为-stt-ate，那么去重合并后就得到state序列。，最后介绍3种常用的解码算法。
复制链接

扫一扫