TATT文本图像超分辨

2022年CVPR拟接收的文本图像超分辨重建。
论文:Ma J, Liang Z, Zhang L. A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution[J]. arXiv preprint arXiv:2203.09388, 2022.
代码地址https://github.com/mjq11302010044/tatt

主要贡献

In this paper, we propose a CNN based Text ATTention network (TATT) to address this problem. The semantics of the text are firstly extracted by a text recognition module as text prior information. Then we design a novel transformer-based module, which leverages global attention mechanism, to exert the semantic guidance of text prior to the text reconstruction process. In addition, we propose a text structure consistency loss to refine the visual appearance by imposing structural consistency on the reconstructions of regular and deformed texts.

  1. 针对文本图像超分辨,设计了新的网络结构;
  2. 在TPGSR网络的基础上,提出TP Interpreter,进一步处理生成的TP,充分利用图像的语义信息;
  3. 在SSIM的基础上提出TSSIM损失。

背景

It remains difficult to reconstruct high-resolution images for spatially deformed texts, especially rotated and curve-shaped ones.

目前已有的文字图像超分辨网络,处理扭曲、变形的文本图像的能力差。

创新点1(网络结构)

在这里插入图片描述

In the first path, the input images are sent into a TP Generator (TPG) to predict the recognition probability sequence as text prior fp.

首先通过TPG预测识别概率序列,获得text prior。

The second path extracts image features fI

然后通过9*9的卷积获取图像的特征图。

The TP Interpreter computes the correlation between the text prior fP and image feature fI, and assigns the semantic guidance in fP to the corresponding location in the spatial domain to guide the final SR text recovery.

然后将fp和fI通过TP Interpreter融合成TP map:fT M,将fp中的语义信息,根据空间位置匹配,分配到fI的对应位置。

Finally, the TP map fT M and the image feature fI are passed into a reconstruction module. This module includes 5 Text-Prior Guided Blocks (TPGBs) that progressively fuse fT M and fI, and a final Pixel-Shuffle layer to increase the resolution.

最后,将TP map和fI进行重建,重建模型使用5个TPGB串联而成,然后通过Pixel-Shuffle层进行分辨率提升。

创新点2(TP Interpreter)

在这里插入图片描述

The TP Interpreter aims to interpret the text prior fP to the image feature fI so that the influence of the semantics guidance can be exerted to the correlated spatial position in the image feature domain.

TP Interpreter的目的就是:通过卷积,将fp上语义信息分配到对应位置的fI上。TP Interpreter注要包括编码部分和解码部分。

The Encoder encodes the text prior fP by performing correlation between the semantics of each character in fP and outputs the context-enhanced feature fE.

编码器主要是将图像中的字符间的语义信息提取出来,做成一个强化过的特征fE。进入编码器前,首先要通过FPE模块进行位置信息编码。进入编码器后,经过MSA和FFN层,提取语义元素fP的全局相关信息,以增强特征,增强后的特征记为fE

The decoder performs global cross attention between fE and fI to interpret the semantic information to the image feature.

和编码器相似,首先还是对进来的fI图像通过RPE提取位置信息,对水平方向上的信息进行编码,使得模型能够更好的学习临近的上下文信息。
然后将fE和编码后的fI使用MCA层进行关联计算MCA是通过多个CA构成的。首先按照特征层的维度,将fE和编码后的fI分层若干组,然后将第i个组的fE和编码后的fI送入第i个CA进行计算,最终将计算好的结果合并,即可得到经过MCA后的特征:
在这里插入图片描述
最后通过FFN,即可得到TP map: fTM

创新点3(TSC)

We consider minimizing the distance of three images, i.e., the deformed version of the SR text image DF(Y ), the SR version of the deformed LR text image F(DY ) and the deformed ground truth D(X), where D denotes the random deformation.

TSSIM 是SSIM的变体,其目的是处理以下3种图像的距离:变形后的SR、变性后的LR、变形后的HR,具体计算如下:
在这里插入图片描述
在TSSIM的基础上,作者提出的TSC损失如下:
在这里插入图片描述
整个网络的损失函数:
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

对于文章中的TP提取,是TPGSR提过的内容了,而作者最重要提到的TP Interpreter对于文本超分是有重要意义的,它充分利用和增强了提取到的TP信息。当然,TSC损失函数,在处理倾斜、形变、透视等方面,或许有一定的借鉴意义。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

毋小黑

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值