论文阅读笔记 | Super-resolution image visual quality assessment based on structure–texture features

ErizJ

已于 2024-05-07 01:59:36 修改

阅读量822

点赞数 22

分类专栏：论文阅读笔记文章标签：论文阅读笔记超分辨率图像图像质量评价 SR IQA STD

于 2024-03-12 16:31:33 首次发布

本文链接：https://blog.csdn.net/weixin_44043952/article/details/136633703

版权

论文阅读笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章介绍了一种新的深度学习模型，用于评估超分辨率图像的质量。模型利用结构-纹理特征提取模块（STEM）和特征到分数回归模块（FSRM），通过自监督学习减少过拟合，有效评估SRIs的质量。实验结果显示，该模型在多个数据库上表现出色，尤其在SRIs的失真适应性和一致性方面优于其他方法。

摘要由CSDN通过智能技术生成

文章目录

文章链接：https://doi.org/10.1016/j.image.2023.117025
代码链接：https://github.com/key1cdc/RR_SRIQA

文章题目

Super-resolution image visual quality assessment based on structure–texture features

发表年限

2023

期刊/会议名称

SPIC：Signal Processing-Image Communication

论文简要

本文提出了一种基于 $CNN$ 的最新 RR-IQA 模型，用于评估 $SR I s$ 的质量。
这种新模型通过引入结构-纹理特征提取模块（ $STEM$ ）来考虑图像结构和纹理在 $SR I$ 质量评价中的作用，从而提取与图像质量相关的特征。
然后采用特征到分数回归模块（ $FSRM$ ）来预测图像质量分数。
为了解决模型过拟合的问题，作者使用自监督学习的方式，使用大量易得的 $L R$ - $H R$ 图像对来预训练 $STEM$ 。
$STEM$ 占据了 RR-IQA 模型参数的 $99.8$ % 以上，这使得标记数据可以用于训练 $FSRM$ 中规模更小的参数集，从而有效地克服了深度学习中常见的过拟合问题。

动机

在 SR-IQA 的背景下，无法获得完美的 $H R$ 参考图像。输入的 $L R$ 图像是所需 $H R$ 图像的下采样版本，包含了许多相关信息，RR-IQA 非常适合评估图像 $SR$ 算法。
从传统信号处理的角度来看，图像结构和纹理在确定 $SR I s$ 质量方面起着重要但不同的作用。一个好的 RR-IQA 模型应该充分利用这些知识。
在深度学习中，缺乏足够的训练数据可能导致模型过拟合。

主要思想或方法架构

根据对现有图像质量评估 $I Q A$ 方法的分析，可以明确看出一种适用于超分辨率图像的IQA模型应该能够满足以下要求：
- 模型应能够利用低分辨率输入图像中的有益信息。
- 模型应利用卷积神经网络（ $CNN$ ）的强大表征能力，提取与超分辨率图像相关的质量特征。
- 模型必须解决因标记数据不足而引起的过拟合问题。
- 模型应针对超分辨率图像特定伪影的不同特点进行设计，并相应地解决这些问题。
- 模型应评估整个超分辨率图像的视觉质量，而不是仅依赖于图像中的一个或多个补丁。
针对以上的分析，本文提出了一个新的 RR-IQA 模型，由两个主要模块组成，如下图所示：结构-纹理特征提取模块（ $STEM$ ）和特征到评分回归模块（ $FSRM$ ）。
$STEM$ 模块负责提取与质量相关的特征，是模型的关键组成部分。
从 $STEM$ 提取的特征然后通过 $FSRM$ 进行图像质量评分预测， $FSRM$ 由一个浅层多层感知器（ $M L P$ ）实现。

在这里插入图片描述

结构-纹理特征提取模块 $STEM$ 的架构如下图所示，由三个子模块组成，即预处理模块（ $PM$ ），局部特征提取模块（ $L EM$ ）和全局特征聚合模块（ $G A M$ ）。

在这里插入图片描述

在 $PM$ 中，我们首先对输入的低分辨率图像进行双线性插值，以达到与超分辨率图像 $I_s$ 相同的分辨率，实现对两个输入图像的对齐。
然后，同时将插值的低分辨率图像 $I_b$ 和输入的超分辨率图像 $I_s$ 分解为两个互补的组成部分：结构组成部分和纹理组成部分。
结构组成部分传达了图像的主要信息，而纹理组成部分包含了图像的细节。
在进行 $ST D$ 后，我们从输入图像中获得了四个图像组成部分： $I_b$ 和 $I_s$ 的结构组成部分，分别表示为 $I_{bs}$ 和 $I_{ss}$ ，以及 $I_b$ 和 $I_s$ 的纹理组成部分，分别表示为 $I_{bt}$ 和 $I_{st}$ 。
这四个组成部分与输入的超分辨率图像 $I_s$ 具有相同的尺寸。
归一化后的三个组成部分，表示为 $J_{bs}$ ， $J_{ss}$ 和 $J_{st}$ ，将输入到下一个子模块 $L EM$ 中。
在本地特征提取模块 $L EM$ 中，给定 $J_{bs}$ 、 $J_{ss}$ 和 $J_{st}$ ，通过三个并行分支提取了三种类型的局部特征
- 方向分支 $g_o(·)$
- 高频分支 $g_h(·)$
- 纹理分支 $g_t(·)$
$F_{ol}$ 是衡量主导方向失真的局部特征，为了衡量主导方向上的失真，可以逐像素方式比较 $J_{ss}$ 和 $J_{bs}$ 的边缘方向。
$F_{hl}$ 是表示高频信息恢复程度的局部特征，高频分支旨在生成能够很好地编码 $SR$ 方法在结构组件中恢复的高频信息的局部特征。
双线性插值作为一种基本的放大方法不会恢复任何高频信息，导致超平滑的 $SR$ 图像。
因此在公式中包含了 $J_{bs}$ ，以提供各种 $SR$ 方法重建的图像的基准线。
$F_{tl}$ 是描述纹理分布的局部特征，基于 $CNN$ 的 $SR$ 方法可能会产生纹理伪影，如棋盘格和假纹理。
根据人类视觉系统的特性，具有相似分布的纹理提供类似的视觉感知。
因此在公式中，局部特征 $F_{tl}$ 被用来描述纹理。
$θ_h$ 和 $θ_t$ 分别是高频分支和纹理分支中可学习的参数。
与上面两个公式不同，我们在纹理分支中不包含任何来自输入 $L R$ 图像的信息。原因有两个：
- 首先， $L R$ 图像的纹理组件中的某些信号模式太弱，无法在视觉上感知。
- 其次，在 $H R$ 纹理被降采样后，纹理发生了剧烈变化。在 $g_h(·)$ 和 $g_t(·)$ 中， $L R$ 图像不能提供参考信息。

在这里插入图片描述

从结构分量( $d$ )和( $e$ )中，可以看到，在插值后的 $L R$ 图像中， $H R$ 图像中结构边缘的方向依旧可以很好地保留。
因此，在 $L EM$ 中利用插值后 $L R$ 图像的结构分量（Reduce-Reference）。
从纹理分量( $g$ )和( $h$ )可以看出，( $h$ )中的纹理信息丢失了。
因此，插值后的 $L R$ 图像的纹理成分在文章中被忽略。

通过方向分支 $g_o(·)$ ，可以获得能够指示 $SR I$ 结构方向上的局部失真的特征图 $F_{ol}$ 。
由于 $I_b$ 中不存在方向失真，它可以提供关于结构方向的完美参考信息，用来测量局部特征 $F_{ol}$ 。
具体而言， $F_{ol}$ 是通过 $J_{ss}$ 和 $J_{bs}$ 之间的局部方向相似度来衡量的。
方向是通过 图像导数的对称半正定张量 来估计的。
相似度是以 $SS I M - l ik e$ 的方式计算的。

$SR$ 的目标是恢复 $L R$ 图像中丢失的高频信息，采用高频分支 $g_h(·)$ 来提取描述高频信息恢复的程度的特征 $F_{hl}$ 。
作者采用一个深度网络来预测 $SR I s$ 与它们对应的 $H R$ 图像之间的高频相似性。网络有两个输入，即 $J_{ss}$ 和 $J_{bs}$ ，在开始时被串联起来。

在这里插入图片描述

为了确定该网络中可学习的参数，利用一对 $SR I$ 和 $H R$ 图像之间的高频相似性作为训练目标。
借助高斯滤波器可以轻松获得高频信息。使用具有不同标准差的高斯滤波器组成的滤波器组{ $σ_1$ ,. . . , $σ_i$ ,. . . , $σ_n$ }。
$H_{σi}$ 是与由标准差 $σi$ 确定的高斯滤波器相关的高频相似性映射。
与方向相似性类似， $H_{σi}$ 也是以 $SS I M - l ik e$ 的方式计算得出的。
采用基于 $F ro b e ni u s$ 范数（ $F$ -范数）的损失函数来训练网络。
$θ_h$ 表示 $g_h(·)$ 中的可学习参数。
$θ_c$ 表示最后一层的可学习参数，即 $C o n v Bl oc k 7$ 。
$N_h$ 是训练中使用的辅助样本数量。
$_F$ 是 $F ro b e ni u s$ 范数。
$H_c(y)$ 是从辅助训练数据中的第 $y$ 对 $SR I$ 和 $H R$ 图像计算得到的高频相似性。

纹理分支 $g_t(·)$ 提取特征 $F_{tl}$ ，作者采用一个网络来预测 $SR I s$ 与其对应的 $H R$ 图像之间的纹理图案的相似性。
网络的学习目标是从 $SR I$ 和相应的 $H R$ 图像中提取的两个纹理描述符的内积。
在我们的策略中，可以将各种类型的描述符，表示为 { $d_1$ . . . $d_j$ . . . $d_m$ }，纳入到训练目标的计算中。
纹理分支的整体目标 $T_c$ 可以表示为：

在这里插入图片描述

$T_{dj}$ 是基于第 $j$ 个纹理描述符的纹理相似性映射。
用基于 $F ro b e ni u s$ 范数的损失函数来确定纹理分支中可学习的参数。

在提取了三种逐像素特征 $F_{ol}$ 、 $F_{hl}$ 和 $F_{tl}$ 后， $G A M$ 将它们分别聚合成图像级特征 $f_{og}$ 、 $f_{hg}$ 和 $f_{tg}$ 。
为了与FSRM中的全连接层兼容，图像级特征应具有固定的维度。
利用非均匀区间量化的频率直方图将逐像素特征 $F_{ol}$ 聚合为图像级特征 $f_{og}$ 。
利用基于均值和标准差的空间池化层将逐像素特征 $F_{hl}$ 和 $F_{tl}$ 聚合为图像级特征 $f_{hg}$ 和 $f_{tg}$ 。

在这里插入图片描述

特征到得分回归模块 $FSRM$ 建立了全局特征 $f_g$ 与主观质量评分 $q$ 之间的映射关系。
它由一个浅层多层感知器 $M L P$ $g_r(·)$ 实现，包括三个全连接层。
每个全连接层后面都跟着一个激活函数。
第一和第二层后面的激活函数是修正线性单元（ $R e LU$ ），最后一层是 $S i g m o i d$ 函数。
其中 $θ_r$ 表示 $FSRM$ 中的可学习参数。
$N_d$ 是标记样本数。
$f_g(x)$ 是从 $SR - I Q A$ 数据库中提取的第 $x$ 个 $L R - SR I - p ai r$ 的全局特征。
$q (x)$ 是 $SR I$ 的主观质量评分。

实验结果

所提出的模型在 $C V I U - 2017$ 、 $S I S A R$ 和 $Q A D S$ 数据库上取得了最佳性能，而针对一般失真图像设计的 $I Q A$ 指标只呈现了中等性能。

在这里插入图片描述

为了测试所提出的模型的泛化能力，作者进行了跨数据库评估，即在一个数据集上训练 $I Q A$ 模型，然后在另一个数据集上进行测试。
可以看到一些基于学习的 $I Q A$ 竞争方法在跨数据库评估中表现出显著的性能波动。
与它们相比，作者的模型能够适应 $SR I s$ 中的各种失真，并取得出色且稳定的性能。

在这里插入图片描述

是否能有效地比较相同图像内容的两个 $SR I s$ 也是很有意思的，作者提出的方法明显优于 $N e u r a lSBS$ 模型和其他竞争对手，实现了 $86.61$ %的预测准确性。

在这里插入图片描述

作者进行统计显著性测试来确定一个 $I Q A$ 方法是否在统计上与另一个有区别。作者基于 $F$ 检验进行假设检验，展示了在三个 $SR - I Q A$ 数据库上比较 $I Q A$ 方法的统计显著性。
从结果可以看出，在 $Q A D S$ 数据库上，提出的方法显著优于所有其他方法。
在 $C V I U - 2017$ 数据库上，作者的方法在除了 $Dee pSRQ$ 之外的其他方法中表现显著优秀，而与 $Dee pSRQ$ 相比则无法区分。
在 $S I S A R$ 数据库上，作者的方法在除了 $D I SQ$ 之外的其他方法中显著优于，而与 $D I SQ$ 相比则无法区分。
总体而言，提出的方法在三个 $SR - I Q A$ 数据库上的统计显著性测试中取得了最佳结果。

在这里插入图片描述

如果排除高频或纹理分布分支，性能显著下降。
这意味着 $SR I s$ 的视觉质量对这两个方面非常敏感。
在所提出的方法中，所有三个分支，即所有三种结构和纹理特征，都是必要的。

在这里插入图片描述

ErizJ

关注

22
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
1
评论
论文阅读笔记 | Super-resolution image visual quality assessment based on structure–texture features

论文阅读笔记 | Super-resolution image visual quality assessment based on structure–texture features
复制链接

扫一扫