文章链接:https://doi.org/10.1016/j.image.2023.117025
代码链接:https://github.com/key1cdc/RR_SRIQA
文章题目
Super-resolution image visual quality assessment based on structure–texture features
发表年限
2023
期刊/会议名称
SPIC:Signal Processing-Image Communication
论文简要
- 本文提出了一种基于 C N N CNN CNN 的最新 RR-IQA 模型,用于评估 S R I s SRIs SRIs 的质量。
- 这种新模型通过引入结构-纹理特征提取模块( S T E M STEM STEM)来考虑图像结构和纹理在 S R I SRI SRI 质量评价中的作用,从而提取与图像质量相关的特征。
- 然后采用特征到分数回归模块( F S R M FSRM FSRM)来预测图像质量分数。
- 为了解决模型过拟合的问题,作者使用自监督学习的方式,使用大量易得的 L R LR LR - H R HR HR 图像对来预训练 S T E M STEM STEM。
- S T E M STEM STEM 占据了 RR-IQA 模型参数的 99.8 99.8 99.8% 以上,这使得标记数据可以用于训练 F S R M FSRM FSRM 中规模更小的参数集,从而有效地克服了深度学习中常见的过拟合问题。
动机
- 在 SR-IQA 的背景下,无法获得完美的 H R HR HR 参考图像。输入的 L R LR LR 图像是所需 H R HR HR 图像的下采样版本,包含了许多相关信息,RR-IQA 非常适合评估图像 S R SR SR 算法。
- 从传统信号处理的角度来看,图像结构和纹理在确定 S R I s SRIs SRIs 质量方面起着重要但不同的作用。一个好的 RR-IQA 模型应该充分利用这些知识。
- 在深度学习中,缺乏足够的训练数据可能导致模型过拟合。
主要思想或方法架构
-
根据对现有图像质量评估 I Q A IQA IQA 方法的分析,可以明确看出一种适用于超分辨率图像的IQA模型应该能够满足以下要求:
- 模型应能够利用低分辨率输入图像中的有益信息。
- 模型应利用卷积神经网络( C N N CNN CNN)的强大表征能力,提取与超分辨率图像相关的质量特征。
- 模型必须解决因标记数据不足而引起的过拟合问题。
- 模型应针对超分辨率图像特定伪影的不同特点进行设计,并相应地解决这些问题。
- 模型应评估整个超分辨率图像的视觉质量,而不是仅依赖于图像中的一个或多个补丁。
-
针对以上的分析,本文提出了一个新的 RR-IQA 模型,由两个主要模块组成,如下图所示:结构-纹理特征提取模块( S T E M STEM STEM)和特征到评分回归模块( F S R M FSRM FSRM)。
-
S T E M STEM STEM 模块负责提取与质量相关的特征,是模型的关键组成部分。
-
从 S T E M STEM STEM 提取的特征然后通过 F S R M FSRM FSRM 进行图像质量评分预测, F S R M FSRM FSRM 由一个浅层多层感知器( M L P MLP MLP)实现。
- 结构-纹理特征提取模块 S T E M STEM STEM 的架构如下图所示,由三个子模块组成,即预处理模块( P M PM PM),局部特征提取模块( L E M LEM LEM)和全局特征聚合模块( G A M GAM GAM)。
-
在 P M PM PM 中,我们首先对输入的低分辨率图像进行双线性插值,以达到与超分辨率图像 I s I_s Is 相同的分辨率,实现对两个输入图像的对齐。
-
然后,同时将插值的低分辨率图像 I b I_b Ib 和输入的超分辨率图像 I s I_s Is 分解为两个互补的组成部分:结构组成部分和纹理组成部分。
-
结构组成部分传达了图像的主要信息,而纹理组成部分包含了图像的细节。
-
在进行 S T D STD STD 后,我们从输入图像中获得了四个图像组成部分: I b I_b Ib 和 I s I_s Is 的结构组成部分,分别表示为 I b s I_{bs} Ibs 和 I s s I_{ss} Iss,以及 I b I_b Ib 和 I s I_s Is 的纹理组成部分,分别表示为 I b t I_{bt} Ibt 和 I s t I_{st} Ist。
-
这四个组成部分与输入的超分辨率图像 I s I_s Is 具有相同的尺寸。
-
归一化后的三个组成部分,表示为 J b s J_{bs} Jbs, J s s J_{ss} Jss 和 J s t J_{st} Jst,将输入到下一个子模块 L E M LEM LEM 中。
-
在本地特征提取模块 L E M LEM LEM 中,给定 J b s J_{bs} Jbs、 J s s J_{ss} Jss 和 J s t J_{st} Jst,通过三个并行分支提取了三种类型的局部特征
- 方向分支 g o ( ⋅ ) g_o(·) go(⋅)
- 高频分支 g h ( ⋅ ) g_h(·) gh(⋅)
- 纹理分支 g t ( ⋅ ) g_t(·) gt(⋅)
-
F o l F_{ol} Fol 是衡量主导方向失真的局部特征,为了衡量主导方向上的失真,可以逐像素方式比较 J s s J_{ss} Jss 和 J b s J_{bs} Jbs 的边缘方向。
-
F h l F_{hl} Fhl 是表示高频信息恢复程度的局部特征,高频分支旨在生成能够很好地编码 S R SR SR 方法在结构组件中恢复的高频信息的局部特征。
-
双线性插值作为一种基本的放大方法不会恢复任何高频信息,导致超平滑的 S R SR SR 图像。
-
因此在公式中包含了 J b s J_{bs} Jbs,以提供各种 S R SR SR 方法重建的图像的基准线。
-
F t l F_{tl} Ftl 是描述纹理分布的局部特征,基于 C N N CNN CNN 的 S R SR SR 方法可能会产生纹理伪影,如棋盘格和假纹理。
-
根据人类视觉系统的特性,具有相似分布的纹理提供类似的视觉感知。
-
因此在公式中,局部特征 F t l F_{tl} Ftl 被用来描述纹理。
-
θ h θ_h θh 和 θ t θ_t θt 分别是高频分支和纹理分支中可学习的参数。
-
与上面两个公式不同,我们在纹理分支中不包含任何来自输入 L R LR LR 图像的信息。原因有两个:
- 首先, L R LR LR 图像的纹理组件中的某些信号模式太弱,无法在视觉上感知。
- 其次,在 H R HR HR 纹理被降采样后,纹理发生了剧烈变化。在 g h ( ⋅ ) g_h(·) gh(⋅) 和 g t ( ⋅ ) g_t(·) gt(⋅) 中, L R LR LR 图像不能提供参考信息。
- 从结构分量( d d d)和( e e e)中,可以看到,在插值后的 L R LR LR 图像中, H R HR HR 图像中结构边缘的方向依旧可以很好地保留。
- 因此,在 L E M LEM LEM 中利用插值后 L R LR LR 图像的结构分量(Reduce-Reference)。
- 从纹理分量( g g g)和( h h h)可以看出,( h h h)中的纹理信息丢失了。
- 因此,插值后的 L R LR LR 图像的纹理成分在文章中被忽略。
- 通过方向分支 g o ( ⋅ ) g_o(·) go(⋅),可以获得能够指示 S R I SRI SRI 结构方向上的局部失真的特征图 F o l F_{ol} Fol。
- 由于 I b I_b Ib 中不存在方向失真,它可以提供关于结构方向的完美参考信息,用来测量局部特征 F o l F_{ol} Fol。
- 具体而言, F o l F_{ol} Fol是通过 J s s J_{ss} Jss 和 J b s J_{bs} Jbs 之间的局部方向相似度来衡量的。
- 方向是通过 图像导数的对称半正定张量 来估计的。
- 相似度是以 S S I M − l i k e SSIM-like SSIM−like 的方式计算的。
- S R SR SR 的目标是恢复 L R LR LR 图像中丢失的高频信息,采用高频分支 g h ( ⋅ ) g_h(·) gh(⋅) 来提取描述高频信息恢复的程度的特征 F h l F_{hl} Fhl。
- 作者采用一个深度网络来预测 S R I s SRIs SRIs 与它们对应的 H R HR HR 图像之间的高频相似性。网络有两个输入,即 J s s J_{ss} Jss 和 J b s J_{bs} Jbs,在开始时被串联起来。
- 为了确定该网络中可学习的参数,利用一对 S R I SRI SRI 和 H R HR HR 图像之间的高频相似性作为训练目标。
- 借助高斯滤波器可以轻松获得高频信息。使用具有不同标准差的高斯滤波器组成的滤波器组{
σ
1
σ_1
σ1,. . . ,
σ
i
σ_i
σi,. . . ,
σ
n
σ_n
σn}。
- H σ i H_{σi} Hσi 是与由标准差 σ i σi σi 确定的高斯滤波器相关的高频相似性映射。
- 与方向相似性类似, H σ i H_{σi} Hσi 也是以 S S I M − l i k e SSIM-like SSIM−like 的方式计算得出的。
- 采用基于
F
r
o
b
e
n
i
u
s
Frobenius
Frobenius 范数(
F
F
F-范数)的损失函数来训练网络。
- θ h θ_h θh 表示 g h ( ⋅ ) g_h(·) gh(⋅) 中的可学习参数。
- θ c θ_c θc 表示最后一层的可学习参数,即 C o n v B l o c k 7 ConvBlock7 ConvBlock7。
- N h N_h Nh 是训练中使用的辅助样本数量。
- ∣ ∣ ⋅ ∣ ∣ F ||·||_F ∣∣⋅∣∣F 是 F r o b e n i u s Frobenius Frobenius 范数。
- H c ( y ) H_c(y) Hc(y) 是从辅助训练数据中的第 y y y 对 S R I SRI SRI 和 H R HR HR 图像计算得到的高频相似性。
- 纹理分支 g t ( ⋅ ) g_t(·) gt(⋅) 提取特征 F t l F_{tl} Ftl,作者采用一个网络来预测 S R I s SRIs SRIs 与其对应的 H R HR HR 图像之间的纹理图案的相似性。
- 网络的学习目标是从 S R I SRI SRI 和相应的 H R HR HR 图像中提取的两个纹理描述符的内积。
- 在我们的策略中,可以将各种类型的描述符,表示为 { d 1 d_1 d1. . . d j d_j dj . . . d m d_m dm},纳入到训练目标的计算中。
- 纹理分支的整体目标 T c T_c Tc 可以表示为:
- T d j T_{dj} Tdj 是基于第 j j j 个纹理描述符的纹理相似性映射。
- 用基于 F r o b e n i u s Frobenius Frobenius 范数的损失函数来确定纹理分支中可学习的参数。
- 在提取了三种逐像素特征 F o l F_{ol} Fol、 F h l F_{hl} Fhl 和 F t l F_{tl} Ftl 后, G A M GAM GAM 将它们分别聚合成图像级特征 f o g f_{og} fog、 f h g f_{hg} fhg 和 f t g f_{tg} ftg。
- 为了与FSRM中的全连接层兼容,图像级特征应具有固定的维度。
- 利用非均匀区间量化的频率直方图将逐像素特征 F o l F_{ol} Fol聚合为图像级特征 f o g f_{og} fog。
- 利用基于均值和标准差的空间池化层将逐像素特征 F h l F_{hl} Fhl 和 F t l F_{tl} Ftl 聚合为图像级特征 f h g f_{hg} fhg 和 f t g f_{tg} ftg。
- 特征到得分回归模块 F S R M FSRM FSRM 建立了全局特征 f g f_g fg 与主观质量评分 q q q 之间的映射关系。
- 它由一个浅层多层感知器 M L P MLP MLP g r ( ⋅ ) g_r(·) gr(⋅) 实现,包括三个全连接层。
- 每个全连接层后面都跟着一个激活函数。
- 第一和第二层后面的激活函数是修正线性单元(
R
e
L
U
ReLU
ReLU),最后一层是
S
i
g
m
o
i
d
Sigmoid
Sigmoid 函数。
- 其中 θ r θ_r θr 表示 F S R M FSRM FSRM 中的可学习参数。
- N d N_d Nd 是标记样本数。
- f g ( x ) f_g(x) fg(x) 是从 S R − I Q A SR-IQA SR−IQA 数据库中提取的第 x x x 个 L R − S R I − p a i r LR-SRI-pair LR−SRI−pair 的全局特征。
- q ( x ) q(x) q(x) 是 S R I SRI SRI 的主观质量评分。
实验结果
- 所提出的模型在 C V I U − 2017 CVIU-2017 CVIU−2017、 S I S A R SISAR SISAR 和 Q A D S QADS QADS 数据库上取得了最佳性能,而针对一般失真图像设计的 I Q A IQA IQA 指标只呈现了中等性能。
- 为了测试所提出的模型的泛化能力,作者进行了跨数据库评估,即在一个数据集上训练 I Q A IQA IQA 模型,然后在另一个数据集上进行测试。
- 可以看到一些基于学习的 I Q A IQA IQA 竞争方法在跨数据库评估中表现出显著的性能波动。
- 与它们相比,作者的模型能够适应 S R I s SRIs SRIs 中的各种失真,并取得出色且稳定的性能。
- 是否能有效地比较相同图像内容的两个 S R I s SRIs SRIs 也是很有意思的,作者提出的方法明显优于 N e u r a l S B S NeuralSBS NeuralSBS 模型和其他竞争对手,实现了 86.61 86.61 86.61%的预测准确性。
- 作者进行统计显著性测试来确定一个 I Q A IQA IQA 方法是否在统计上与另一个有区别。作者基于 F F F检验进行假设检验,展示了在三个 S R − I Q A SR-IQA SR−IQA 数据库上比较 I Q A IQA IQA 方法的统计显著性。
- 从结果可以看出,在 Q A D S QADS QADS 数据库上,提出的方法显著优于所有其他方法。
- 在 C V I U − 2017 CVIU-2017 CVIU−2017 数据库上,作者的方法在除了 D e e p S R Q DeepSRQ DeepSRQ 之外的其他方法中表现显著优秀,而与 D e e p S R Q DeepSRQ DeepSRQ 相比则无法区分。
- 在 S I S A R SISAR SISAR 数据库上,作者的方法在除了 D I S Q DISQ DISQ 之外的其他方法中显著优于,而与 D I S Q DISQ DISQ 相比则无法区分。
- 总体而言,提出的方法在三个 S R − I Q A SR-IQA SR−IQA 数据库上的统计显著性测试中取得了最佳结果。
- 如果排除高频或纹理分布分支,性能显著下降。
- 这意味着 S R I s SRIs SRIs 的视觉质量对这两个方面非常敏感。
- 在所提出的方法中,所有三个分支,即所有三种结构和纹理特征,都是必要的。