Python基于RCNN＆CTC的文本识别系统（源码＆部署教程）

最新推荐文章于 2024-04-20 10:09:28 发布

另外半只334

最新推荐文章于 2024-04-20 10:09:28 发布

阅读量1.4k

点赞数

文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_60644301/article/details/127682473

版权

1.项目展示

2.CTPN+CRNN+CTC文字识别网络构建

首先CNN提取图像卷积特征
然后LSTM进一步提取图像卷积特征中的序列特征
最后引入CTC解决训练时字符无法对齐的问题

一般情况下对一张图像中的文字进行识别需要以下步骤：

定位文稿中的图片，表格，文字区域，区分文字段落（版面分析）
进行文本行识别（识别）
使用NLP相关算法对文字识别结果进行矫正（后处理）
整个CRNN网络可以分为三个部分：

假设输入图像大小为，注意提及图像都是形式。

Convlutional Layers
这里的卷积层就是一个普通的CNN网络，用于提取输入图像的Convolutional feature maps，即将大小为的图像转换为大小的卷积特征矩阵，网络细节请参考本文给出的实现代码。

Recurrent Layers
这里的循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。
在CRNN中显然使用了第二种stack形深层双向结构。
由于CNN输出的Feature map是大小，所以对于RNN最大时间长度（即有25个时间输入）。

Transcription Layers
将RNN输出做softmax后，为字符输出。
对于Recurrent Layers，如果使用常见的Softmax cross-entropy loss，则每一列输出都需要对应一个字符元素。那么训练时候每张样本图片都需要标记出每个字符在图片中的位置，再通过CNN感受野对齐到Feature map的每一列获取该列输出对应的Label才能进行训练，如图9。
在实际情况中，标记这种对齐样本非常困难（除了标记字符，还要标记每个字符的位置），工作量非常大。另外，由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。

整个CRNN的流程如图。先通过CNN提取文本图片的Feature map，然后将每一个channel作为的时间序列输入到LSTM中。

详细内容还是查看论文

另外半只334

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Python基于RCNN＆CTC的文本识别系统（源码＆部署教程）

基于CTPN+CRNN的文字识别系统实现
复制链接

扫一扫

另外半只334 CSDN认证博客专家 CSDN认证企业博客

码龄3年

1: 原创

173万+: 周排名

85万+: 总排名

1402: 访问

: 等级

17: 积分

1: 粉丝

0: 获赞

1: 评论

1: 收藏

私信

关注

热门文章

Python基于RCNN＆CTC的文本识别系统（源码＆部署教程） 1402

最新评论

Python基于RCNN＆CTC的文本识别系统（源码＆部署教程）
m0_59097811: 项目源码有吗博主

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。