Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition

路飞快来找我

于 2022-05-24 11:37:56 发布

阅读量338

点赞数

分类专栏： PaperSummary 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48994423/article/details/124943939

版权

PaperSummary 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

本文提出了一种新的文本图像增强方法。

①给定一个文本图像，定义一组自定义基准点（将图像平均划分为N个面片，并沿图像的顶部和底部边界初始化2（N+1）个基准点p）。

②代理网络：通过代理网络去预测移动状态（移动状态表示一组自定义基准点的移动）。给定一幅图像，随机移动基准点以扭曲图像。移动操作(∆十、∆y），每个基准点都与两个因素有关：1）运动方向，即(∆十、∆y） )；2）运动的距离，即(|∆x ||∆y |）。实验发现对距离的学习无法收敛。因此，将学习空间限制在运动方向。根据移动方向，在半径范围内随机生成移动距离。代理网络仅由六个卷积层和一个完全连接层组成。代理网络的存储需求小于1.5M。

③随机也生成一组移动状态。

④由代理网络预测的移动状态和随机生成的移动状态被馈送到增强模块。

增强模块以图像为输入，分别基于运动状态进行变换。在输入图像上应用基于移动最小二乘的相似性变形。给定图像中的一个点u，u的变换为

M是一个线性变换矩阵，p*是初始化基准点p的加权质心，q∗是移动基准点q的加权质心。

点u的权重wi的形式为：

当u接近pi时，重量wi增加。说明u主要取决于最近基准点的移动。这里设置α=1。通过极小化得到最佳变换T（u）来得到唯一的极小值：

⑤将增强后的两幅图像都送入识别器中，预测增强图像上的文本字符串。

⑥在编辑距离的度量下测量了增强图像的识别难度。代理从增加难度的移动状态中学习，并探索识别器的弱点。

以下是整体流程图：

2022.5.20

路飞快来找我

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition

本文提出了一种新的文本图像增强方法。①给定一个文本图像，定义一组自定义基准点（将图像平均划分为N个面片，并沿图像的顶部和底部边界初始化2（N+1）个基准点p）。②代理网络：通过代理网络去预测移动状态（移动状态表示一组自定义基准点的移动）。给定一幅图像，随机移动基准点以扭曲图像。移动操作(∆十、∆y），每个基准点都与两个因素有关：1）运动方向，即(∆十、∆y） )；2）运动的距离，即(|∆x ||∆y |）。实验发现对距离的学习无法收敛。因此，将学习空间限制在运动方向。根据移动方向，在半径范围.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。