压缩图像增强论文Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images阅读笔记

最新推荐文章于 2024-01-07 02:06:41 发布

_,_

最新推荐文章于 2024-01-07 02:06:41 发布

阅读量806

点赞数 1

分类专栏：论文文章标签：计算机视觉图像增强

本文链接：https://blog.csdn.net/xspyzm/article/details/117985075

版权

论文专栏收录该内容

30 篇文章 8 订阅

订阅专栏

论文来源：ECCV 2020

论文链接：[2006.16581] Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images (arxiv.org)

项目链接：GitHub - RyanXingQL/RBQE: Official repository of "Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images", ECCV 2020.

作者：北航徐迈团队

概述：

提出了一个高效的、可以提前退出的增强网络，只需训练一个网络就可对不同质量（QP）的压缩图像进行复杂度不一样的增强，从而使得高质量（低QP）的图像能够在达到足够的增强效果后提前输出，低质量（高QP）的图像能够得到充分的增强效果。

骨干网络部分采用了一个6层的U-Net++的结构来实现一个单一动态网络，不同的是其中的卷积层Ci,j，在Level 1的卷积层全部采用的是2个连续的卷积，其他的卷积层采用的是2个连续的可分离卷积来减少参数量，而且对于每个Ci,j处得到的特征，在传给其他卷积层之前都会经过一个通道注意力来进一步处理。在C1,2-C1,6处，对于当前卷积层得到的特征，分别用一个独立的卷积层来提取特征然后与输入图像相加得到一个在当前阶段的增强结果，然后将这个结果送入图像质量评估模块(IQAM)来判断当前的增强结果是否可以提前结束。图像质量的评估考虑两个重要的因子——纹理区域的模糊效应，平滑区域的块效应。先将图像分块，然后对这些块进行二分类，判别它们是平滑块或纹理块。对于平滑块评估块效应强度，具体指标是切比雪夫矩阵中特定的方向能量；对于纹理块评估模糊强度，具体方法是对当前块进行二次模糊，比较前后的矩阵相似性，如果相似性高，说明原本块就很模糊。最后将两者归一化加权，由于我们对块效应更敏感所以赋给其更高的权重。作者在这里采用的质量评估指标是不需要ground truth的，但其趋势和PSNR、SSIM一致。通过这种方式，可以在图像增强到一定程度后自动退出来节省耗能，而低质量的图像也能够得到足够的增强。

以下内容转载自：https://github.com/RyanXingQL/Blog/blob/main/posts/rbqe.md

1. 初衷

在19年 MFQEv2 的工作中，我们要针对不同失真类型的压缩视频，训练同一结构、不同参数的深度网络模型。例如，对于 HEVC 压缩的 5 种典型配置（固定 QP 为 22、27、32、37、42 编码），我们需要训练 5 个深度网络模型。

这种训练思路会导致两个实际问题：

资源浪费：特别是当输入视频失真类型差异较大时（例如用户上传的各式各样的 UGC），所需模型种类较多。
非盲增强：由于每一个模型都对应一种特定的失真，因此我们必须提前知悉输入视频的失真类型（例如 QP 信息），再匹配模型；而实际场景中存在大量失真内容/失真程度未知的压缩视频。

那么，能否使用单一模型、对付多种失真视频？具体而言，能否设计一种网络，能够判断自动失真类型，然后健壮地增强各式各样的失真视频（盲处理）？

2. 思路演化

为了简化问题，我们先在压缩图像上实现我们的构思。

上面提到的思路（先分类，再增强）本质上属于“伪盲”：我们只能限定若干种失真类型，然后再对输入图像进行判别，最后再将输入图像送入对应的增强支路。采用这种思路的 paper 已经有了，和非盲增强的框架相比，只是多了一个 QP 分类器，并无新意。

此时我有了新的思路：设计一种渐进增强的网络，并且在增强的过程中，对已增强图像的质量进行判断；如果质量合格，那么就提前退出。这样做有几点好处：

做到了真正的盲增强：无需限定可处理的失真类型。
更符合实际需求：已增强图像需要达到既定目标才能输出。现实中我们往往也是对图像的质量有所要求。
快速，节能：由于存在提前退出机制，因此简单图像可以简单增强。

但这么做带来了全新的挑战：

如何设计高效的渐进盲增强网络？
如何判别图像质量？

我来详细说说。

3. 网络设计和训练方法

我很快联想到了大量网络剪裁、网络加速的相关工作。在图像分类任务中比较典型的有 MSDNet 和 SkipNet。两个工作有一点明显的区别（对我而言需要选择其中一种思路加以改进）：

MSDNet 对 tradeoff 的决策只在测试阶段阈值的选择。
- MSDNet 在训练过程中不区分难易样本，而是简单地执行深监督（所有样本在所有出口的 loss 权重都是 1，然后求和）。
- 在测试阶段，作者需要设置一个输出阈值，当某出口的分类阈值达到既定阈值时，即可在当前出口输出。
- 训练简单，阈值设置主观。
SkipNet 在设计训练 loss 时需要考虑 tradefoff。
- SkipNet 在训练分类网络的同时，还训练一个基于 RL 的 skip 与否判别器；训练的 loss 不仅包括分类准确率，还包括消耗资源的度量。
- 训练复杂，loss 设计主观。

为快速实现压缩图像盲增强的第一个工作，我决定采用思路 1，并给出了如下网络设计，如图：

有几点说明：

对于分类任务，分类器输出值经过归一化后，可以作为置信度，与阈值进行比较；然而对于质量增强任务，增强网络无法提供质量测度；因此我们额外需要一个质量评估模块，见下一节。
难、易图像的增强，在前处理阶段可以共享，我们称之为“编码”；而在后处理阶段，即所谓的“解码”时，我们最好给难、易样本提供各自的处理支路，让网络更好地处理差异。因此在整体上，我采用了如图所示的嵌套 U-Net 结构：其编码主干（也就是下采样的主干）是渐进共享的，而解码支路（也就是上采样的 5 个支路）各走各的。
在此基础上，我增加了稠密连接，来进一步降低资源消耗：支路之间的连接强度是可学习的，因此引入稠密连接利大于弊。
由于衡量能耗的指标选为 FLOPs，为进一步降低 FLOPs，整体网络大量使用 separable convolution；虽然 FLOPs 表现很优异，但耗时上表现一般（和对比算法相比）。

RBQE 的训练方法和 MSDNet 的基本是一致的。不同的是，我在训练阶段也稍微考虑了图像的难易。例如，对于高 QP（低质量）的样本，我鼓励它深度增强（后退出），因此其 loss 在深出口的权重要更大（对网络后端的改善会更明显）；反之，对于低 QP（高质量）的样本，我鼓励它简单增强（先退出），因此其 loss 在浅出口的权重要更大（迫使网络在较浅时即可达到较好的增强效果）。

遗憾的是，尽管我们不需要明确指出失真类型（参考我前面批评伪盲增强的部分），但训练时仍必须制备若干种类型的失真图像，然后才能为它们分配在不同出口的 loss 权重。而且出口权重的设置也是主观的。

4. 质量判别

在 MFQEv2 和相关工作中，PSNR 和 SSIM 是主要的质量评价指标，因此本文也沿用了该指标（实际上，我最近也在研究感知质量指标，因为感知质量更贴合实际需求）。

比较困难的一点是：PSNR 是 FR IQA 指标，而 RBQE 是无参考的盲增强方法，无法获取参考图像。这就要求，我们的质量评估方法在压缩图像上的趋势，应尽可能逼近 PSNR 和 SSIM。

具体的 IQA 设计见论文，思路：

我们对压缩图像中的模糊和块效应都比较敏感，特别是发生在平滑区域的块效应，以及发生在纹理区域的模糊。
那么，我们对图像分块，然后逐块执行二分类：平滑块或是纹理块。
对于平滑块，我们评估块效应强度，具体指标是切比雪夫矩中的特定方向能量；对于纹理块，我们评估模糊强度，具体方法是对当前块进行二次模糊，比较前后的矩相似性；如果相似性高，说明原本块就很模糊。
最后，我们二者进行归一化和加权组合。由于我们对前者更加敏感。因此前者权重较大。

虽然该盲 IQA 模块需要设置一定数量的超参数，但经过我在 QP 等于 22、27、32、37、42 的图像上实验后发现，IQA 输出结果和 PSNR、SSIM 趋势相同；因此我认为该 NR IQA 模块理想地完成了盲质量评估的既定目标：

5. 实验

无论是以 PSNR 和 SSIM 为指标的质量增强，还是以 FLOPs 为指标的资源节约，上述方法在 HEVC 压缩图像以及 JPEG 压缩图像上都取得了较好的效果，如图：

进一步我想考察，RBQE 究竟是否达到了 tradeoff 意义上的最优。首先，在输出阈值的选择上，我们根据下图左的结果，选择了拐点（在实际场景中应根据条件和需求确定）。

在右图中，我们迫使 HEVC 压制的每一种 QP 的图像，分别从 5 个出口都输出，并测量其 PSNR 结果。例如对于 QP 等于 27 的图像，我们能明显看到，其在出口 2 输出是最为理想的；当在出口 3、4、5 输出时，PSNR 无法获得明显提升，而能耗稳定增加。

综上，在当前的训练策略下，RBQE 的盲增强性能和节能情况均能超越对比算法，并且实现了既定的 tradeoff 思想。RBQE 作为相关领域的第一篇工作，训练方法简单，思路清晰；但我认为 RBQE 还有较大的缺憾，还希望在今后的工作中加以讨论和改善。主要有几个方面：

改进训练方法，使得难易样本的训练更和谐统一。
更好地刻画难易样本（不能简单地根据图像的压缩 QP，而应根据网络增强情况或实际需求）。
考虑如何在盲增强中尽可能剔除主观设计因素。这一点尤为困难，因为我们既想发挥深度网络的性能优势，又想摒弃深度网络的“死板”（深度网络有时不如传统方法健壮和自适应，即测试数据必须和训练数据类型匹配）。
考虑其他更实际的质量评估指标，来代替 PSNR 和 SSIM；相应地，质量评估方法也要有所变化。

欢迎关注、讨论以及改善 RBQE 方法！

6. 我和这篇工作

2019 年 CVPR 前几个月，我对新课题一筹莫展。徐迈老师给我布置的课题是多任务；我做了一段时间的调研，没有太大进展。多任务的确非常好发论文：很多任务理论上都是关联的，因而协同训练往往是互有增益的。然而，我更希望在理论上有所突破；这一点对我有点困难。

2019 年 9 月，MSDNet 作者（也是 DenseNet 作者）黄高老师受邀给我们做学术报告，主题为动态网络。这个报告瞬间给我了一剂强心剂：我之前苦苦思索的 MFQE 多模型之痛，可以通过单一动态模型加以解决！

之后的心路历程就如上文所示了：不断遭遇新问题、寻求解方、实验验证。在整体框架出结果之前，我也给实验室做了许多次报告，包括动态网络、多任务等等。当我最终完成了所有实验探索后，时间也来到了 CVPR 前最后两个月。在此期间，徐老师对我的工作非常有信心；我们也来回修改了 8 个版本之多。

可惜的是，CVPR 的审稿意见并不如意；审稿人 2、3 在经过 rebuttal 后都改变了意见，而审稿人 1 始终觉得文章新意不够。我自我反思：我把我在方法演进过程中最困难的部分，例如嵌入的质量评估模块，因页数限制放到了补充材料里；而审稿人大多没有时间阅读补充材料。

经历了 CVPR 的惨痛教训，我决心大改文章；从 introduction 改起，重点把自己攻克的难关，完完整整地呈现给审稿人。因此在接下来的 ECCV 中，RBQE 方法获得了一致 5 分（满分为 6 分），顺利接收。

这篇文章是我从选题、背景调研、实验和写作完全独立的一次尝试，让我对动态网络有了全新的认识，也算是开启了增强领域的一个小分支。这篇工作还没有结束；我还在努力尝试从理论上改进、提升它。

_,_

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
压缩图像增强论文Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images阅读笔记

论文来源：ECCV 2020论文链接：[2006.16581] Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images (arxiv.org)
复制链接

扫一扫

专栏目录