对超分有兴趣的同学们可直接关注微信公众号,这个号的定位就是针对图像超分辨的,会不断更新最新的超分算法解读。
正文开始
本文参考
总括
这是一篇关于图像超分辨率重构的文章,准确的说是主要集中于图像中文字区域重建,然后进行文本识别的文章。目的是提高文字区域的清晰度,进而提高文字识别的精度。
网络结构如下图所示:
网络通过超分辨率网络和文字识别网络拼接而成,超分辨部分以SRGAN网络为基础,主要包括生成器和判别器两部分;文字识别采用ASTER方法,主要包括图片的空间矫正和识别两部分。
网络的训练过程
作者采用了第三种训练方式。
即先训练识别部分,然后在保持训练部分参数不变的情况下,通过text perceptual loss的指导,再反过来指导判别器和生成器的训练。
损失函数
文章中,以将文本识别的Loss作为文本感知的损失来指导超分辨率网络的训练,从而更加关注文本的内容,而不是无关的背景区域。
text perceptual loss是文章提出的一个创新点,文本感知损失采用预先训练的vgg网络,计算超分辨率图像与原始图像特征图的相似度。感知损失可以使网络理解图像中文字区域的一般内容。可以说,这种方式计算得到的损失,是基于文字区域内内容的,而不是像素级别。因此,通过对抗损失和文字感知损失一起作为超分辨率生成的损失函数,能够更有效的使对图像的重建集中在文字区域而不是无关的背景区域。
对抗损失函数:
文本感知损失函数(TPL):
生成器
使用残差块不断对将模糊的小文本提取特征。网络中有两个反卷积层,每一层由反卷积核组成,核将低分辨率图像向上采样到2×高分辨率图像。除了最后一层之外,在每个卷积层之后使用归一化和RELU激活。生成网络可以对低分辨率图像进行上采样,输出4×超分辨率图像。该方法可以部分地减少伪影,提高上采样图像的质量。
判别器
应用分类网络来区分高分辨率图像和生成的用于对抗性训练的超分辨率图像。输入为超分辨率图像或HR图像,输出为输入为HR图像的概率。最终,通过优化GAN网络的最小最大损失函数达到判别的效果。
文本识别器
由空间矫正网络和文本识别网络组成。文本定向网络能够利用thinplate spline将不规则文本重新排列成水平文本,从而实现对输入图像中字符排列的校正;文本识别网络由编码器和解码器两部分组成。编码器用于提取文本图像的特征。它包括residual blocks。在每个块之后,通过沿其行轴拆分feature map,将其转换为特征序列。然后输入到双向LSTM中。解码器是attentional LSTM,可输出文本的字符信息。
总结
相比于SRGAN直接生成的高分辨率图像缺乏识别任务所需的具体详细信息,TextSR提出了内容感知的超分辨率网络,以恢复文本区域以进行识别。