crnn文字识别训练过程出现的nan问题

最新推荐文章于 2022-11-25 13:43:55 发布

Eric An

最新推荐文章于 2022-11-25 13:43:55 发布

阅读量1.3k

点赞数

分类专栏：《视觉图像处理工程应用》解决方案

本文链接：https://blog.csdn.net/yunxinan/article/details/106466268

版权

《视觉图像处理工程应用》解决方案专栏收录该内容

50 篇文章 5 订阅

订阅专栏

crnn 文字识别中数据集应该注意问题：

a)训练图片高度不能超过32并且要能整除16
b)训练图片宽度不能小于高度的八倍256不然在寻找输出的的出现
c)原则上最好的训练就是图片的高度都是32宽度都是280的字条里面的文字可以多可以少
d)如果出现丢字修改池化层的第二个参数为1可以减少丢字

详细代码阅读：

模型训练出现关于nan问题的方案
以crnn_chinese_characters_rec为例
打开 https://github.com/Sierkinhane/crnn_chinese_characters_rec

**找到脚本params.py脚本
阅读里面的相关超参数，这个其实就是模型的cfg文件
在17-19行写出了限制
为什么要对模型的输入尺寸限制这个是为了全连接层的输入是固定原因
想修就要对全连接层前面加上空间金字塔池化spp这种结构在crnn里该结
结构是blstm控制

**具体代码crnn_main.py
164行说明了尺寸限制传入参数
168行详细的说明参数下传的过程
161行可以看出是使用torch框架自带的ctcloss
代码返回到crnn.py里面
尺寸在14行有了新的计算
在25行输出尺寸在32行解释说明长度的变化尺寸nm的字典里面
66行可以打印出来看自己的尺寸是否正确

整体过程：输出图片特征调用ctcloss计算和使用blstm输出识别的文本

**以chineseocr为例
https://github.com/chineseocr/chineseocr
在crnn_torch.py脚本中
45行可以看出是尺寸限制条件
该限制条件主要的作用在config.py的40行
然后在crnn文件夹中utils.py脚本中
定义了一个方法来使用strlabelconverter
相关的尺寸变化在29行开始计算