本文提出了一种新的文本图像增强方法。
①给定一个文本图像,定义一组自定义基准点(将图像平均划分为N个面片,并沿图像的顶部和底部边界初始化2(N+1)个基准点p)。
②代理网络:通过代理网络去预测移动状态(移动状态表示一组自定义基准点的移动)。给定一幅图像,随机移动基准点以扭曲图像。移动操作(∆十、∆y), 每个基准点都与两个因素有关:1)运动方向,即(∆十、∆y) );2) 运动的距离,即(|∆x ||∆y |)。实验发现对距离的学习无法收敛。因此,将学习空间限制在运动方向。根据移动方向,在半径范围内随机生成移动距离。代理网络仅由六个卷积层和一个完全连接层组成。代理网络的存储需求小于1.5M。
③随机也生成一组移动状态。
④由代理网络预测的移动状态和随机生成的移动状态被馈送到增强模块。
增强模块以图像为输入,分别基于运动状态进行变换。在输入图像上应用基于移动最小二乘的相似性变形。给定图像中的一个点u,u的变换为
M是一个线性变换矩阵,p*是初始化基准点p的加权质心,q∗是移动基准点q的加权质心。
点u的权重wi的形式为:
当u接近pi时,重量wi增加。说明u主要取决于最近基准点的移动。这里设置α=1。通过极小化得到最佳变换T(u)来得到唯一的极小值:
⑤将增强后的两幅图像都送入识别器中,预测增强图像上的文本字符串。
⑥在编辑距离的度量下测量了增强图像的识别难度。代理从增加难度的移动状态中学习,并探索识别器的弱点。
以下是整体流程图:
2022.5.20