Learn to Augment: Joint Data Augmentation and Network Optimizationfor Text Recognition

本文提出了一种新的文本图像增强方法。

①给定一个文本图像,定义一组自定义基准点(将图像平均划分为N个面片,并沿图像的顶部和底部边界初始化2(N+1)个基准点p)。

②代理网络:通过代理网络去预测移动状态(移动状态表示一组自定义基准点的移动)。给定一幅图像,随机移动基准点以扭曲图像。移动操作(∆十、∆y), 每个基准点都与两个因素有关:1)运动方向,即(∆十、∆y) );2) 运动的距离,即(|∆x ||∆y |)。实验发现对距离的学习无法收敛。因此,将学习空间限制在运动方向。根据移动方向,在半径范围内随机生成移动距离。代理网络仅由六个卷积层和一个完全连接层组成。代理网络的存储需求小于1.5M。

③随机也生成一组移动状态。

④由代理网络预测的移动状态和随机生成的移动状态被馈送到增强模块。

增强模块以图像为输入,分别基于运动状态进行变换。在输入图像上应用基于移动最小二乘的相似性变形。给定图像中的一个点u,u的变换为

M是一个线性变换矩阵,p*是初始化基准点p的加权质心,q∗是移动基准点q的加权质心。 

点u的权重wi的形式为: 

当u接近pi时,重量wi增加。说明u主要取决于最近基准点的移动。这里设置α=1。通过极小化得到最佳变换T(u)来得到唯一的极小值:

⑤将增强后的两幅图像都送入识别器中,预测增强图像上的文本字符串。

⑥在编辑距离的度量下测量了增强图像的识别难度。代理从增加难度的移动状态中学习,并探索识别器的弱点。

以下是整体流程图:

 2022.5.20

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值