深入理解CTPN原理

最新推荐文章于 2021-03-06 18:09:20 发布

y_ear

最新推荐文章于 2021-03-06 18:09:20 发布

阅读量1.6k

点赞数 1

分类专栏： OCR 文章标签：检测 CTPN OCR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/y_ear/article/details/85013421

版权

这篇博客深入探讨了CTPN（Connected Text Proposal Network）的工作原理，指出其在文本检测中的优势，避免了传统方法对大尺寸anchor的依赖。内容包括资源链接、CTPN的预处理步骤、对VOC格式数据的处理以及CTPN检测框的可视化过程，展示了从原始检测框到经过NMS算法优化后的结果。

摘要由CSDN通过智能技术生成

深入理解CTPN原理

资源
亮点
输入
- 预处理
- 重新生成VOC格式的数据
CTPN的可视化

资源

paper 网址：https://arxiv.org/abs/1609.03605
tf code网址：https://github.com/eragonruan/text-detection-ctpn

亮点

之前很多做检测的论文都是先画很多anchor，然后再对这些anchor做回归。这些anchor 的尺寸都是相对比较大的，在文本检测上可能效果不是很好。CTPN是将这些anchor分成了很多宽度固定的小区域，预测完小区域之后，再对区域进行合并，得到最后的box位置。

输入

预处理

一般情况下，我们手里的数据是标准的VOC格式，即一张图片上框了很多的框，而这些框是用（Xmin，Ymin，Xmax，Ymax）来表示的。翻看以下的源代码，你会发现恰好是这四个值，如果已经VOC格式的，直接跳到这里来，如果不是，则需要先生成一个text，每一行记录四个坐标（用逗号分隔开），其中这四个坐标的位置是任意的。

#from the split_label in the prepare training data dir

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。