论文阅读笔记 | Super-resolution image visual quality assessment based on structure–texture features

文章介绍了一种新的深度学习模型,用于评估超分辨率图像的质量。模型利用结构-纹理特征提取模块(STEM)和特征到分数回归模块(FSRM),通过自监督学习减少过拟合,有效评估SRIs的质量。实验结果显示,该模型在多个数据库上表现出色,尤其在SRIs的失真适应性和一致性方面优于其他方法。
摘要由CSDN通过智能技术生成

文章链接:https://doi.org/10.1016/j.image.2023.117025
代码链接:https://github.com/key1cdc/RR_SRIQA

文章题目

Super-resolution image visual quality assessment based on structure–texture features

发表年限

2023

期刊/会议名称

SPIC:Signal Processing-Image Communication

论文简要

  • 本文提出了一种基于 C N N CNN CNN 的最新 RR-IQA 模型,用于评估 S R I s SRIs SRIs 的质量。
  • 这种新模型通过引入结构-纹理特征提取模块( S T E M STEM STEM)来考虑图像结构和纹理在 S R I SRI SRI 质量评价中的作用,从而提取与图像质量相关的特征。
  • 然后采用特征到分数回归模块( F S R M FSRM FSRM)来预测图像质量分数。
  • 为了解决模型过拟合的问题,作者使用自监督学习的方式,使用大量易得的 L R LR LR - H R HR HR 图像对来预训练 S T E M STEM STEM
  • S T E M STEM STEM 占据了 RR-IQA 模型参数的 99.8 99.8 99.8% 以上,这使得标记数据可以用于训练 F S R M FSRM FSRM 中规模更小的参数集,从而有效地克服了深度学习中常见的过拟合问题。

动机

  • 在 SR-IQA 的背景下,无法获得完美的 H R HR HR 参考图像。输入的 L R LR LR 图像是所需 H R HR HR 图像的下采样版本,包含了许多相关信息,RR-IQA 非常适合评估图像 S R SR SR 算法。
  • 从传统信号处理的角度来看,图像结构和纹理在确定 S R I s SRIs SRIs 质量方面起着重要但不同的作用。一个好的 RR-IQA 模型应该充分利用这些知识。
  • 在深度学习中,缺乏足够的训练数据可能导致模型过拟合。

主要思想或方法架构

  • 根据对现有图像质量评估 I Q A IQA IQA 方法的分析,可以明确看出一种适用于超分辨率图像的IQA模型应该能够满足以下要求:

    • 模型应能够利用低分辨率输入图像中的有益信息。
    • 模型应利用卷积神经网络( C N N CNN CNN)的强大表征能力,提取与超分辨率图像相关的质量特征。
    • 模型必须解决因标记数据不足而引起的过拟合问题。
    • 模型应针对超分辨率图像特定伪影的不同特点进行设计,并相应地解决这些问题。
    • 模型应评估整个超分辨率图像的视觉质量,而不是仅依赖于图像中的一个或多个补丁。
  • 针对以上的分析,本文提出了一个新的 RR-IQA 模型,由两个主要模块组成,如下图所示:结构-纹理特征提取模块( S T E M STEM STEM)和特征到评分回归模块( F S R M FSRM FSRM)。

  • S T E M STEM STEM 模块负责提取与质量相关的特征,是模型的关键组成部分。

  • S T E M STEM STEM 提取的特征然后通过 F S R M FSRM FSRM 进行图像质量评分预测, F S R M FSRM FSRM 由一个浅层多层感知器( M L P MLP MLP)实现。

在这里插入图片描述

  • 结构-纹理特征提取模块 S T E M STEM STEM 的架构如下图所示,由三个子模块组成,即预处理模块( P M PM PM),局部特征提取模块( L E M LEM LEM)和全局特征聚合模块( G A M GAM GAM)。

在这里插入图片描述

  • P M PM PM 中,我们首先对输入的低分辨率图像进行双线性插值,以达到与超分辨率图像 I s I_s Is 相同的分辨率,实现对两个输入图像的对齐。

  • 然后,同时将插值的低分辨率图像 I b I_b Ib 和输入的超分辨率图像 I s I_s Is 分解为两个互补的组成部分:结构组成部分和纹理组成部分。

  • 结构组成部分传达了图像的主要信息,而纹理组成部分包含了图像的细节。

  • 在进行 S T D STD STD 后,我们从输入图像中获得了四个图像组成部分: I b I_b Ib I s I_s Is 的结构组成部分,分别表示为 I b s I_{bs} Ibs I s s I_{ss} Iss,以及 I b I_b Ib I s I_s Is 的纹理组成部分,分别表示为 I b t I_{bt} Ibt I s t I_{st} Ist

  • 这四个组成部分与输入的超分辨率图像 I s I_s Is 具有相同的尺寸。

  • 归一化后的三个组成部分,表示为 J b s J_{bs} Jbs J s s J_{ss} Jss J s t J_{st} Jst,将输入到下一个子模块 L E M LEM LEM 中。

  • 在本地特征提取模块 L E M LEM LEM 中,给定 J b s J_{bs} Jbs J s s J_{ss} Jss J s t J_{st} Jst,通过三个并行分支提取了三种类型的局部特征

    • 方向分支 g o ( ⋅ ) g_o(·) go()
    • 高频分支 g h ( ⋅ ) g_h(·) gh()
    • 纹理分支 g t ( ⋅ ) g_t(·) gt()
  • F o l F_{ol} Fol 是衡量主导方向失真的局部特征,为了衡量主导方向上的失真,可以逐像素方式比较 J s s J_{ss} Jss J b s J_{bs} Jbs 的边缘方向。
    在这里插入图片描述

  • F h l F_{hl} Fhl 是表示高频信息恢复程度的局部特征,高频分支旨在生成能够很好地编码 S R SR SR 方法在结构组件中恢复的高频信息的局部特征。

  • 双线性插值作为一种基本的放大方法不会恢复任何高频信息,导致超平滑的 S R SR SR 图像。

  • 因此在公式中包含了 J b s J_{bs} Jbs,以提供各种 S R SR SR 方法重建的图像的基准线。
    在这里插入图片描述

  • F t l F_{tl} Ftl 是描述纹理分布的局部特征,基于 C N N CNN CNN S R SR SR 方法可能会产生纹理伪影,如棋盘格和假纹理。

  • 根据人类视觉系统的特性,具有相似分布的纹理提供类似的视觉感知。

  • 因此在公式中,局部特征 F t l F_{tl} Ftl 被用来描述纹理。
    在这里插入图片描述

  • θ h θ_h θh θ t θ_t θt 分别是高频分支和纹理分支中可学习的参数。

  • 与上面两个公式不同,我们在纹理分支中不包含任何来自输入 L R LR LR 图像的信息。原因有两个:

    • 首先, L R LR LR 图像的纹理组件中的某些信号模式太弱,无法在视觉上感知。
    • 其次,在 H R HR HR 纹理被降采样后,纹理发生了剧烈变化。在 g h ( ⋅ ) g_h(·) gh() g t ( ⋅ ) g_t(·) gt() 中, L R LR LR 图像不能提供参考信息。

在这里插入图片描述

  • 从结构分量( d d d)和( e e e)中,可以看到,在插值后的 L R LR LR 图像中, H R HR HR 图像中结构边缘的方向依旧可以很好地保留。
  • 因此,在 L E M LEM LEM 中利用插值后 L R LR LR 图像的结构分量(Reduce-Reference)。
  • 从纹理分量( g g g)和( h h h)可以看出,( h h h)中的纹理信息丢失了。
  • 因此,插值后的 L R LR LR 图像的纹理成分在文章中被忽略。

  • 通过方向分支 g o ( ⋅ ) g_o(·) go(),可以获得能够指示 S R I SRI SRI 结构方向上的局部失真的特征图 F o l F_{ol} Fol
  • 由于 I b I_b Ib 中不存在方向失真,它可以提供关于结构方向的完美参考信息,用来测量局部特征 F o l F_{ol} Fol
  • 具体而言, F o l F_{ol} Fol是通过 J s s J_{ss} Jss J b s J_{bs} Jbs 之间的局部方向相似度来衡量的。
  • 方向是通过 图像导数的对称半正定张量 来估计的。
  • 相似度是以 S S I M − l i k e SSIM-like SSIMlike 的方式计算的。

  • S R SR SR 的目标是恢复 L R LR LR 图像中丢失的高频信息,采用高频分支 g h ( ⋅ ) g_h(·) gh() 来提取描述高频信息恢复的程度的特征 F h l F_{hl} Fhl
  • 作者采用一个深度网络来预测 S R I s SRIs SRIs 与它们对应的 H R HR HR 图像之间的高频相似性。网络有两个输入,即 J s s J_{ss} Jss J b s J_{bs} Jbs,在开始时被串联起来。

在这里插入图片描述

  • 为了确定该网络中可学习的参数,利用一对 S R I SRI SRI H R HR HR 图像之间的高频相似性作为训练目标。
  • 借助高斯滤波器可以轻松获得高频信息。使用具有不同标准差的高斯滤波器组成的滤波器组{ σ 1 σ_1 σ1,. . . , σ i σ_i σi,. . . , σ n σ_n σn}。
    在这里插入图片描述
  • H σ i H_{σi} Hσi 是与由标准差 σ i σi σi 确定的高斯滤波器相关的高频相似性映射。
  • 与方向相似性类似, H σ i H_{σi} Hσi 也是以 S S I M − l i k e SSIM-like SSIMlike 的方式计算得出的。
  • 采用基于 F r o b e n i u s Frobenius Frobenius 范数( F F F-范数)的损失函数来训练网络。
    在这里插入图片描述
  • θ h θ_h θh 表示 g h ( ⋅ ) g_h(·) gh() 中的可学习参数。
  • θ c θ_c θc 表示最后一层的可学习参数,即 C o n v B l o c k 7 ConvBlock7 ConvBlock7
  • N h N_h Nh 是训练中使用的辅助样本数量。
  • ∣ ∣ ⋅ ∣ ∣ F ||·||_F ∣∣F F r o b e n i u s Frobenius Frobenius 范数。
  • H c ( y ) H_c(y) Hc(y) 是从辅助训练数据中的第 y y y S R I SRI SRI H R HR HR 图像计算得到的高频相似性。

  • 纹理分支 g t ( ⋅ ) g_t(·) gt() 提取特征 F t l F_{tl} Ftl,作者采用一个网络来预测 S R I s SRIs SRIs 与其对应的 H R HR HR 图像之间的纹理图案的相似性。
  • 网络的学习目标是从 S R I SRI SRI 和相应的 H R HR HR 图像中提取的两个纹理描述符的内积。
  • 在我们的策略中,可以将各种类型的描述符,表示为 { d 1 d_1 d1. . . d j d_j dj . . . d m d_m dm},纳入到训练目标的计算中。
  • 纹理分支的整体目标 T c T_c Tc 可以表示为:

在这里插入图片描述

  • T d j T_{dj} Tdj 是基于第 j j j 个纹理描述符的纹理相似性映射。
  • 用基于 F r o b e n i u s Frobenius Frobenius 范数的损失函数来确定纹理分支中可学习的参数。

  • 在提取了三种逐像素特征 F o l F_{ol} Fol F h l F_{hl} Fhl F t l F_{tl} Ftl 后, G A M GAM GAM 将它们分别聚合成图像级特征 f o g f_{og} fog f h g f_{hg} fhg f t g f_{tg} ftg
  • 为了与FSRM中的全连接层兼容,图像级特征应具有固定的维度。
  • 利用非均匀区间量化的频率直方图将逐像素特征 F o l F_{ol} Fol聚合为图像级特征 f o g f_{og} fog
  • 利用基于均值和标准差的空间池化层将逐像素特征 F h l F_{hl} Fhl F t l F_{tl} Ftl 聚合为图像级特征 f h g f_{hg} fhg f t g f_{tg} ftg

在这里插入图片描述


  • 特征到得分回归模块 F S R M FSRM FSRM 建立了全局特征 f g f_g fg 与主观质量评分 q q q 之间的映射关系。
  • 它由一个浅层多层感知器 M L P MLP MLP g r ( ⋅ ) g_r(·) gr() 实现,包括三个全连接层。
  • 每个全连接层后面都跟着一个激活函数。
  • 第一和第二层后面的激活函数是修正线性单元( R e L U ReLU ReLU),最后一层是 S i g m o i d Sigmoid Sigmoid 函数。
    在这里插入图片描述
  • 其中 θ r θ_r θr 表示 F S R M FSRM FSRM 中的可学习参数。
  • N d N_d Nd 是标记样本数。
  • f g ( x ) f_g(x) fg(x) 是从 S R − I Q A SR-IQA SRIQA 数据库中提取的第 x x x L R − S R I − p a i r LR-SRI-pair LRSRIpair 的全局特征。
  • q ( x ) q(x) q(x) S R I SRI SRI 的主观质量评分。

实验结果

  • 所提出的模型在 C V I U − 2017 CVIU-2017 CVIU2017 S I S A R SISAR SISAR Q A D S QADS QADS 数据库上取得了最佳性能,而针对一般失真图像设计的 I Q A IQA IQA 指标只呈现了中等性能。

在这里插入图片描述

  • 为了测试所提出的模型的泛化能力,作者进行了跨数据库评估,即在一个数据集上训练 I Q A IQA IQA 模型,然后在另一个数据集上进行测试。
  • 可以看到一些基于学习的 I Q A IQA IQA 竞争方法在跨数据库评估中表现出显著的性能波动。
  • 与它们相比,作者的模型能够适应 S R I s SRIs SRIs 中的各种失真,并取得出色且稳定的性能。

在这里插入图片描述

  • 是否能有效地比较相同图像内容的两个 S R I s SRIs SRIs 也是很有意思的,作者提出的方法明显优于 N e u r a l S B S NeuralSBS NeuralSBS 模型和其他竞争对手,实现了 86.61 86.61 86.61%的预测准确性。

在这里插入图片描述

  • 作者进行统计显著性测试来确定一个 I Q A IQA IQA 方法是否在统计上与另一个有区别。作者基于 F F F检验进行假设检验,展示了在三个 S R − I Q A SR-IQA SRIQA 数据库上比较 I Q A IQA IQA 方法的统计显著性。
  • 从结果可以看出,在 Q A D S QADS QADS 数据库上,提出的方法显著优于所有其他方法。
  • C V I U − 2017 CVIU-2017 CVIU2017 数据库上,作者的方法在除了 D e e p S R Q DeepSRQ DeepSRQ 之外的其他方法中表现显著优秀,而与 D e e p S R Q DeepSRQ DeepSRQ 相比则无法区分。
  • S I S A R SISAR SISAR 数据库上,作者的方法在除了 D I S Q DISQ DISQ 之外的其他方法中显著优于,而与 D I S Q DISQ DISQ 相比则无法区分。
  • 总体而言,提出的方法在三个 S R − I Q A SR-IQA SRIQA 数据库上的统计显著性测试中取得了最佳结果。

在这里插入图片描述

  • 如果排除高频或纹理分布分支,性能显著下降。
  • 这意味着 S R I s SRIs SRIs 的视觉质量对这两个方面非常敏感。
  • 在所提出的方法中,所有三个分支,即所有三种结构和纹理特征,都是必要的。

在这里插入图片描述

  • 22
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ErizJ

觉得好的话给小弟一点鼓励吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值