论文阅读笔记 | Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

ErizJ

已于 2024-03-21 16:16:45 修改

阅读量753

点赞数 16

分类专栏：论文阅读笔记文章标签：论文阅读笔记深度学习 OU-IQA shape-texture 图像质量评价 IQA

于 2024-03-21 09:57:51 首次发布

本文链接：https://blog.csdn.net/weixin_44043952/article/details/136845382

版权

论文阅读笔记专栏收录该内容

10 篇文章 0 订阅

订阅专栏

文章目录

文章链接：https://doi.org/10.48550/arXiv.2401.08107

文章题目

Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

发表年限

2024

期刊/会议名称

…

论文简要

本文作者利用两个DNN分支分别提取形状偏向和纹理偏向的深度特征，并设计了一个形状-纹理自适应融合（STAF）模块将它们合并在一起。
基于形状-纹理导向的深度表示，作者制定了表示每个失真图像内在质量模式的内部统计信息，以及代表自然图像领域质量指纹的外部统计信息。
该模型通过测量内部和外部形状-纹理统计之间的统计距离（DSTS）来预测图像质量。
所提出的深度形状-纹理统计概念具有质量感知能力，并且不需要特定任务的训练，使得DSTS能够在没有参考图像、MOS或任何其他额外信息的情况下有效地测量感知质量。

动机

深度特征作为视觉描述符具有高度的纹理偏向并且缺乏形状偏向。
图像形状和纹理线索对扭曲的响应不同，缺少任何一个都会导致图像表示不完整。
在训练过程中，BIQA模型暴露于MOS。然而，MOS是主观的图像质量标签，是通过众包单独注释的，这在当今的数据提升环境下成本高且效率低下。对MOS的依赖可能对质量预测的可扩展性和效率构成挑战。
基于自然场景统计（NSS）的方法中投影系数没有充分捕捉到表示内在图像质量的有意义信息。
当前预训练DNN产生的IQA优选现成深度特征被验证存在高度的纹理偏差，即相比形状过度依赖于对象纹理。相反，普遍认为人类认知高度依赖于图像中的形状（例如猫的轮廓）而不是纹理（例如毛发的斑纹）。因此，仅使用纹理偏向的深度特征可能无法完全表示图像质量。

在这里插入图片描述

形状偏向和纹理偏向的特征在图像的不同区域上呈现出互补的情况（如图的第一行所示），它们相应地展示出反映不同表现模式的不同质量统计数据（如图的第二行所示），这可以用来构建一个全面的形状-纹理统计描述来表示图像质量。

在这里插入图片描述

此外，先前的研究已经验证了将形状相关线索纳入IQA中的有效性。

主要思想或方法架构

为了预测失真图像的质量，首先构建图像的外部和内部统计分布，并利用质量感知距离度量来量化视觉质量。
将离散图像嵌入𝜚的密度𝑝(𝑥)表示为Dirac delta分布的总和：

在这里插入图片描述

Dirac delta分布在函数上的定义是：
- 对于x=0，δ(x) = +∞
- 对于x≠0，δ(x) = 0
- 满足积分性质：∫δ(x)dx = 1
作者的目标是基于经典的马哈拉诺比斯距离（Mahalanobis Distance, MD），定义内部和外部统计分布之间的质量感知统计距离测量。距离越大，视觉质量越低。

在这里插入图片描述

假设外部统计遵循具有均值向量 𝝁𝐺 和协方差矩阵 𝚺𝐺 的概率分布，同时内部统计具有均值向量 𝝁𝑀 和协方差矩阵 𝚺𝑀的概率分布。
那么它们的马哈拉诺比斯距离可以表示为 𝐷𝑚 ( 𝑝𝐺 (x), 𝑝𝑀 (x))，计算公式如下：

在这里插入图片描述

从数学上讲，MD是一种有效的统计距离度量，但在量化视觉质量方面仍存在局限性，因为就图像块之间的位置关系而言，MD是位置不可知的，而这些关系对于视觉感知和内容理解至关重要。
因此，作者用图像块样本来近似内部分布并最终合并内部样本与外部分布之间的MD，得到最终的质量感知距离。

在这里插入图片描述

具体而言，对于 𝑝𝑀 (x) 的样本空间 𝑺𝑀 = {𝑴1, 𝑴2, . . . , 𝑴𝑊}，每个样本 𝑴𝑖 与 𝑝𝐺 (x) 之间的马氏距离为：

在这里插入图片描述

很容易看出，𝐷𝑚 ( 𝑝𝐺 (x), 𝑝𝑀 (x)) 可以表示为 {𝐷𝑚 ( 𝑝𝐺 (x), 𝑴𝑖)}, 𝑖 ∈ [1, 𝑊] 的线性组合。
因此，通过根据每个样本的感知重要性调整权重，我们可以制定一种新的质量感知统计距离度量：

在这里插入图片描述

其中 𝜔𝑖 是经过精心设计的内容加权，满足约束条件 𝚺𝜔𝑖 = 1，𝑊 是样本分割数。
在这种情况下，上述中的 F 是一个线性组合。

根据上述问题表述，提出的框架得以具体化。总体而言，流程如下图所示。

在这里插入图片描述

具体而言，DSTS 包含三个阶段：
- 在第一阶段，首先基于一组在深度领域中具有形状-纹理统计信息的理想原始图像来制定图像外部统计特征。
- 在第二阶段，从每个受损图像中提取具有形状-纹理统计信息的内部统计特征。特别是，在第 1 和第 2 阶段中，中间阶段将图像转换为感知空间，这在下图中有详细说明。
- 在第三阶段，内部和外部分布之间的质量感知统计距离度量用于量化感知质量。

已经反复证明，预训练分类网络的深度特征能够高效地表示原始像素域中的丰富视觉信息，这对于表征感知失真至关重要。
基于这一思路，我们同时采用了具有形状偏好和纹理偏好的 EfficientNet-b7 作为转换骨干，分别表示为 𝜗𝑠 (·) 和 𝜗𝑡 (·)。
整体感知变换过程如下图所示：

在这里插入图片描述

这里总共分别为两种特征提取了五层输出，分别对应于 $2^{nd}$ 到 $6^{th}$ 的卷积阶段。
为了融合它们，我们对前四层输出进行空间下采样。
最后将这五个分量按通道顺序连接起来。
通过上述步骤可以获得 shape-biased 和 texture-biased 的深度特征𝑰˜𝑠 和𝑰˜𝑡。
为了融合形状和纹理偏好的特征，作者提出了一个形状-纹理自适应融合（STAF）模块，用于获得 shape-texture deep embedding，表示为 𝐼˜𝑚 = 𝑆𝑇𝐴𝐹( ˜𝐼𝑠, ˜𝐼𝑡 )。
具体来说，首先计算每个空间位置沿通道维度的方差：

在这里插入图片描述

其中（𝑝，𝑞）表示空间索引，𝑝 ∈ {1, 2, …, 𝑃}，𝑞 ∈ {1, 2, …, 𝑄}，𝑃 和 𝑄 分别表示特征的空间维度。
𝑣𝑎𝑟(·) 表示方差的计算。
然后分别计算形状偏好和纹理偏好的注意力：
最终的 shape-texture embedding 是通过自适应地将 𝐼˜𝑠 和 𝐼˜𝑡 聚合在一起而获得的：

在这里插入图片描述

其中 ⊙ 表示Hadamard乘积。
Hadamard乘积（Hadamard Product），也称为逐元素乘积（element-wise product）或者点乘（dot product），是一种特殊的矩阵乘法。在Hadamard乘积中，两个矩阵的对应元素相乘，结果是一个与原矩阵同维度的新矩阵。
在这种情况下，一幅图像被转换为形状-纹理导向的感知域。

一般来说，图像局部统计描述可以作为高效的视觉模式描述符。
因此，作者首先分别计算 𝐼𝜇 和 𝐼𝜎 为 𝐼˜𝑚 的通道内局部平均图和标准差图：

在这里插入图片描述

为了使不同卷积层的统计分析在不确定幅度范围上保持一致，作者进行了逐层的ℓ2-归一化，将卷积层𝑖的𝑰𝜇投影到单位超球面上，使用：

在这里插入图片描述

然后所有的𝑰˜𝜇𝑖组件被顺序地串联成𝑰˜𝜇。
作者利用𝛾来表示（𝑝，𝑞）以简化，其中𝛾 ∈ {1, 𝑊}，而𝑊是空间补丁的数量。

在DSTS中，每个空间位置𝛾处的组件𝑰(𝛾)𝜇被视为从内部和外部统计分布中抽样得到的随机观测。
这些分布是关于特征通道数量𝑐的多变量分布。
对于图像外部统计，需要足够数量的候选图像作为知识源，以描述图像的统计特征。
然而，并非所有观测在代表自然图像域的质量方面完全相等。
作者观察到，异质图像区域指的是在图像中具有不同特征或属性的区域。这些区域可能包含不同的纹理、颜色、亮度、形状等特征，与周围区域形成明显的对比。
异质图像区域对失真干扰的反应比同质区域更敏感，这意味着它们可以反映更多与质量相关的线索。
因此，作者只考虑包含重要图像结构（例如边缘、角点）的样本。
为了区分这些补丁，我们计算跨通道偏差的平均值𝑰𝜎以形成一个结构指标：

在这里插入图片描述

这里𝑜是通道索引。
作者只考虑具有˜𝑰(𝛾)𝜎 ≥ 𝜏的补丁，其中𝜏是过滤阈值。
然后，作者将所有来自所有高质量图像的合格观测堆叠到样本集𝑺𝐺 ∈ R𝑠×𝑐中，其中𝑠表示来自所有原始图像的合格观测数量。
外部统计特征由𝑺𝐺的均值和协方差来表征，分别表示为𝝁𝐺和𝚺𝐺：
同时，图像内部统计旨在捕捉单个图像中包含的内在质量模式。
类似地，作者将失真图像的𝑰˜(𝛾)𝜇计为内部分布的随机观测，并堆叠到𝑺𝑀 ∈ R𝑠′×𝑐中，其中𝑠′表示失真图像中的观测数量。
在这种情况下，所有样本均来自同一失真图像，没有经过筛选。
类似地，内部统计由𝑺𝑀的均值和协方差指定，分别表示为𝝁𝑀和𝚺𝑀。
在上文中，已经根据 Mahalanobis 距离规定了内部和外部统计分布 𝑝𝑀(x) 和 𝑝𝐺(x) 之间的质量感知距离。
值得一提的是，外部统计是在质量预测阶段之前获得的。
因此，实际上DSTS是一个完全盲目的图像质量指标，其中每个失真图像与其原始对应物和质量标签隔离开来。
为了确保协方差矩阵 𝚺𝐺 和 𝚺𝑀 是正定的，会向对角元素添加正则化项 𝜆：

在这里插入图片描述

其中，𝐼0是单位矩阵，𝜆 = 1 × 𝑒−6。
对于每个失真图像，DSTS指数的计算如下：

在这里插入图片描述

其中 𝑰˜(𝛾)𝜎 在方程中充当内容加权参数。
因此，较大的DSTS值表示更低的质量水平。

实验结果

在这里插入图片描述

从结果中可以观察到，DSTS在十一个数据库中的八个上获得了SOTA性能，在另外两个数据库上获得了第二好的性能。
这表明了DSTS在合成和真实失真上都具有竞争性能。

在这里插入图片描述

在上图中，作者提供了两个参考图像损坏的八个失真图像的差异性平均意见分数(DMOS)和预测的DSTS分数。
可以观察到，随着图像质量的降低，图像内部统计的干扰变得更加严重，而DSTS相应地增加。
这表明DSTS即使在完全盲条件下也能有效地衡量感知质量。

在这里插入图片描述

对于常见的失真类型，DSTS都提供了可观的结果。
这表明所提出的DSTS能够泛化到不同的失真类型，因为它并不是专门为任何特定失真而设计的。

在这里插入图片描述

表中列出的结果表明，所提出的DSTS在生成失真上达到了顶级性能。
此外，可以观察到在大多数情况下，形状偏向统计对质量评估的贡献更大，这表明与纹理相关的相比，生成失真更多地干扰了与形状相关的图像线索。

在这里插入图片描述

所提出的DSTS与五种OA-BIQA方法进行比较，DSTS在大多数情况下都实现了SOTA，而且不需要特定数据集的调整。
这表明即使与OA方法相比，它也具有高泛化能力。

ErizJ

关注

16
点赞
踩
19

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文阅读笔记 | Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation

论文阅读笔记 | Deep Shape-Texture Statistics for Completely Blind Image Quality Evaluation
复制链接

扫一扫