压缩图像增强论文Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images阅读笔记

论文来源:ECCV 2020

论文链接:[2006.16581] Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images (arxiv.org)

项目链接:GitHub - RyanXingQL/RBQE: Official repository of "Early Exit or Not: Resource-Efficient Blind Quality Enhancement for Compressed Images", ECCV 2020.

作者:北航徐迈团队

概述:

提出了一个高效的、可以提前退出的增强网络,只需训练一个网络就可对不同质量(QP)的压缩图像进行复杂度不一样的增强,从而使得高质量(低QP)的图像能够在达到足够的增强效果后提前输出,低质量(高QP)的图像能够得到充分的增强效果。


骨干网络部分采用了一个6层的U-Net++的结构来实现一个单一动态网络,不同的是其中的卷积层Ci,j,在Level 1的卷积层全部采用的是2个连续的卷积,其他的卷积层采用的是2个连续的可分离卷积来减少参数量,而且对于每个Ci,j处得到的特征,在传给其他卷积层之前都会经过一个通道注意力来进一步处理。在C1,2-C1,6处,对于当前卷积层得到的特征,分别用一个独立的卷积层来提取特征然后与输入图像相加得到一个在当前阶段的增强结果,然后将这个结果送入图像质量评估模块(IQAM)来判断当前的增强结果是否可以提前结束。图像质量的评估考虑两个重要的因子——纹理区域的模糊效应,平滑区域的块效应。先将图像分块,然后对这些块进行二分类,判别它们是平滑块或纹理块。对于平滑块评估块效应强度,具体指标是切比雪夫矩阵中特定的方向能量;对于纹理块评估模糊强度,具体方法是对当前块进行二次模糊,比较前后的矩阵相似性,如果相似性高,说明原本块就很模糊。最后将两者归一化加权,由于我们对块效应更敏感所以赋给其更高的权重。作者在这里采用的质量评估指标是不需要ground truth的,但其趋势和PSNR、SSIM一致。通过这种方式,可以在图像增强到一定程度后自动退出来节省耗能,而低质量的图像也能够得到足够的增强。

以下内容转载自:https://github.com/RyanXingQL/Blog/blob/main/posts/rbqe.md

1. 初衷

在19年 MFQEv2 的工作中,我们要针对不同失真类型的压缩视频,训练同一结构、不同参数的深度网络模型。例如,对于 HEVC 压缩的 5 种典型配置(固定 QP 为 22、27、32、37、42 编码),我们需要训练 5 个深度网络模型。

这种训练思路会导致两个实际问题:

  • 资源浪费:特别是当输入视频失真类型差异较大时(例如用户上传的各式各样的 UGC),所需模型种类较多。
  • 非盲增强:由于每一个模型都对应一种特定的失真,因此我们必须提前知悉输入视频的失真类型(例如 QP 信息),再匹配模型;而实际场景中存在大量失真内容/失真程度未知的压缩视频。

那么,能否使用单一模型、对付多种失真视频?具体而言,能否设计一种网络,能够判断自动失真类型,然后健壮地增强各式各样的失真视频(盲处理)?

2. 思路演化

为了简化问题,我们先在压缩图像上实现我们的构思。

上面提到的思路(先分类,再增强)本质上属于“伪盲”:我们只能限定若干种失真类型,然后再对输入图像进行判别,最后再将输入图像送入对应的增强支路。采用这种思路的 paper 已经有了,和非盲增强的框架相比,只是多了一个 QP 分类器,并无新意。

此时我有了新的思路:设计一种渐进增强的网络,并且在增强的过程中,对已增强图像的质量进行判断;如果质量合格,那么就提前退出。这样做有几点好处:

  • 做到了真正的盲增强:无需限定可处理的失真类型。
  • 更符合实际需求:已增强图像需要达到既定目标才能输出。现实中我们往往也是对图像的质量有所要求。
  • 快速,节能:由于存在提前退出机制,因此简单图像可以简单增强。

但这么做带来了全新的挑战:

  • 如何设计高效的渐进盲增强网络?
  • 如何判别图像质量?

我来详细说说。

3. 网络设计和训练方法

我很快联想到了大量网络剪裁、网络加速的相关工作。在图像分类任务中比较典型的有 MSDNet 和 SkipNet。两个工作有一点明显的区别(对我而言需要选择其中一种思路加以改进):

  • MSDNet 对 tradeoff 的决策只在测试阶段阈值的选择。
    • MSDNet 在训练过程中不区分难易样本,而是简单地执行深监督(所有样本在所有出口的 loss 权重都是 1,然后求和)。
    • 在测试阶段,作者需要设置一个输出阈值,当某出口的分类阈值达到既定阈值时,即可在当前出口输出。
    • 训练简单,阈值设置主观。
  • SkipNet 在设计训练 loss 时需要考虑 tradefoff。
    • SkipNet 在训练分类网络的同时,还训练一个基于 RL 的 skip 与否判别器;训练的 loss 不仅包括分类准确率,还包括消耗资源的度量。
    • 训练复杂,loss 设计主观。

为快速实现压缩图像盲增强的第一个工作,我决定采用思路 1,并给出了如下网络设计,如图:

有几点说明:

  • 对于分类任务,分类器输出值经过归一化后,可以作为置信度,与阈值进行比较;然而对于质量增强任务,增强网络无法提供质量测度;因此我们额外需要一个质量评估模块,见下一节。
  • 难、易图像的增强,在前处理阶段可以共享,我们称之为“编码”;而在后处理阶段,即所谓的“解码”时,我们最好给难、易样本提供各自的处理支路,让网络更好地处理差异。因此在整体上,我采用了如图所示的嵌套 U-Net 结构:其编码主干(也就是下采样的主干)是渐进共享的,而解码支路(也就是上采样的 5 个支路)各走各的。
  • 在此基础上,我增加了稠密连接,来进一步降低资源消耗:支路之间的连接强度是可学习的,因此引入稠密连接利大于弊。
  • 由于衡量能耗的指标选为 FLOPs,为进一步降低 FLOPs,整体网络大量使用 separable convolution;虽然 FLOPs 表现很优异,但耗时上表现一般(和对比算法相比)。

RBQE 的训练方法和 MSDNet 的基本是一致的。不同的是,我在训练阶段也稍微考虑了图像的难易。例如,对于高 QP(低质量)的样本,我鼓励它深度增强(后退出),因此其 loss 在深出口的权重要更大(对网络后端的改善会更明显);反之,对于低 QP(高质量)的样本,我鼓励它简单增强(先退出),因此其 loss 在浅出口的权重要更大(迫使网络在较浅时即可达到较好的增强效果)。

遗憾的是,尽管我们不需要明确指出失真类型(参考我前面批评伪盲增强的部分),但训练时仍必须制备若干种类型的失真图像,然后才能为它们分配在不同出口的 loss 权重。而且出口权重的设置也是主观的。

4. 质量判别

在 MFQEv2 和相关工作中,PSNR 和 SSIM 是主要的质量评价指标,因此本文也沿用了该指标(实际上,我最近也在研究感知质量指标,因为感知质量更贴合实际需求)。

比较困难的一点是:PSNR 是 FR IQA 指标,而 RBQE 是无参考的盲增强方法,无法获取参考图像。这就要求,我们的质量评估方法在压缩图像上的趋势,应尽可能逼近 PSNR 和 SSIM。

具体的 IQA 设计见论文,思路:

  1. 我们对压缩图像中的模糊和块效应都比较敏感,特别是发生在平滑区域的块效应,以及发生在纹理区域的模糊。
  2. 那么,我们对图像分块,然后逐块执行二分类:平滑块或是纹理块。
  3. 对于平滑块,我们评估块效应强度,具体指标是切比雪夫矩中的特定方向能量;对于纹理块,我们评估模糊强度,具体方法是对当前块进行二次模糊,比较前后的矩相似性;如果相似性高,说明原本块就很模糊。
  4. 最后,我们二者进行归一化和加权组合。由于我们对前者更加敏感。因此前者权重较大。

虽然该盲 IQA 模块需要设置一定数量的超参数,但经过我在 QP 等于 22、27、32、37、42 的图像上实验后发现,IQA 输出结果和 PSNR、SSIM 趋势相同;因此我认为该 NR IQA 模块理想地完成了盲质量评估的既定目标:

5. 实验

无论是以 PSNR 和 SSIM 为指标的质量增强,还是以 FLOPs 为指标的资源节约,上述方法在 HEVC 压缩图像以及 JPEG 压缩图像上都取得了较好的效果,如图:

进一步我想考察,RBQE 究竟是否达到了 tradeoff 意义上的最优。首先,在输出阈值的选择上,我们根据下图左的结果,选择了拐点(在实际场景中应根据条件和需求确定)。

在右图中,我们迫使 HEVC 压制的每一种 QP 的图像,分别从 5 个出口都输出,并测量其 PSNR 结果。例如对于 QP 等于 27 的图像,我们能明显看到,其在出口 2 输出是最为理想的;当在出口 3、4、5 输出时,PSNR 无法获得明显提升,而能耗稳定增加。

综上,在当前的训练策略下,RBQE 的盲增强性能和节能情况均能超越对比算法,并且实现了既定的 tradeoff 思想。RBQE 作为相关领域的第一篇工作,训练方法简单,思路清晰;但我认为 RBQE 还有较大的缺憾,还希望在今后的工作中加以讨论和改善。主要有几个方面:

  1. 改进训练方法,使得难易样本的训练更和谐统一。
  2. 更好地刻画难易样本(不能简单地根据图像的压缩 QP,而应根据网络增强情况或实际需求)。
  3. 考虑如何在盲增强中尽可能剔除主观设计因素。这一点尤为困难,因为我们既想发挥深度网络的性能优势,又想摒弃深度网络的“死板”(深度网络有时不如传统方法健壮和自适应,即测试数据必须和训练数据类型匹配)。
  4. 考虑其他更实际的质量评估指标,来代替 PSNR 和 SSIM;相应地,质量评估方法也要有所变化。

欢迎关注、讨论以及改善 RBQE 方法!

6. 我和这篇工作

2019 年 CVPR 前几个月,我对新课题一筹莫展。徐迈老师给我布置的课题是多任务;我做了一段时间的调研,没有太大进展。多任务的确非常好发论文:很多任务理论上都是关联的,因而协同训练往往是互有增益的。然而,我更希望在理论上有所突破;这一点对我有点困难。

2019 年 9 月,MSDNet 作者(也是 DenseNet 作者)黄高老师受邀给我们做学术报告,主题为动态网络。这个报告瞬间给我了一剂强心剂:我之前苦苦思索的 MFQE 多模型之痛,可以通过单一动态模型加以解决!

之后的心路历程就如上文所示了:不断遭遇新问题、寻求解方、实验验证。在整体框架出结果之前,我也给实验室做了许多次报告,包括动态网络、多任务等等。当我最终完成了所有实验探索后,时间也来到了 CVPR 前最后两个月。在此期间,徐老师对我的工作非常有信心;我们也来回修改了 8 个版本之多。

可惜的是,CVPR 的审稿意见并不如意;审稿人 2、3 在经过 rebuttal 后都改变了意见,而审稿人 1 始终觉得文章新意不够。我自我反思:我把我在方法演进过程中最困难的部分,例如嵌入的质量评估模块,因页数限制放到了补充材料里;而审稿人大多没有时间阅读补充材料。

经历了 CVPR 的惨痛教训,我决心大改文章;从 introduction 改起,重点把自己攻克的难关,完完整整地呈现给审稿人。因此在接下来的 ECCV 中,RBQE 方法获得了一致 5 分(满分为 6 分),顺利接收。

这篇文章是我从选题、背景调研、实验和写作完全独立的一次尝试,让我对动态网络有了全新的认识,也算是开启了增强领域的一个小分支。这篇工作还没有结束;我还在努力尝试从理论上改进、提升它。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智能图像处理技术 作者:李弼程 出版社:电子工业出版社 ISBN:712100047 原价: ¥32 图书简介 本书主要论述了智能图像处理技术,系统介绍了智能图像处理技术的有代表性的思想、算法与应用,跟踪了图像处理技术的发展前沿。全书共分为15章,重点讨论了图像边缘检测、图像分割、图像特征分析、图像配准、图像融合、图像分类、图像识别、基于内容的图像检索与图像数字水印。此外,为了内容的完整性,本书还介绍了图像预处理技术,如图像采集、图像变换、图像增强、图像恢复、图像编码与压缩。  图书目录 第1章 绪论 1.1 图像与图像处理的概念 1.2 数字图像处理研究的内容 1.2.1 传统的图像处理技术 1.2.2 智能图像处理技术 1.3 数字图像处理系统 1.4 数字图像处理的应用 1.5 人的视觉系统与色度学基础 1.5.1 人的视觉系统 1.5.2 色度学基础 1.6 本书的安排 本章参考文献第2章 图像采集 2.1 图像数字化 2.1.1 图像的数学模型 2.1.2 采样与量化 2.2 量化技术 2.2.1 标量量化 2.2.2 矢量量化 2.2.3 LBG算法与初始码书设计 2.3 图像输入 2.3.1 图像采集系统 2.3.2 图像输入设备 2.4 图像文件格式 2.4.1 BMP(位图)文件格式 2.4.2 GIF文件格式 2.4.3 JPEG文件格式 本章参考文献 第3章 图像变换 3.1 傅里叶变换 3.1.1 一维傅里叶变换 3.1.2 二维傅里叶变换 3.1.3 二维离散傅里叶变换的性质 3.1.4 正交变换的基本概念 3.2 离散余弦变换 3.2.1 离散余弦变换的定义 3.2.2 离散余弦变换的快速实现 3.3 K-L变换 3.3.1 K-L变换的定义 3.3.2 K-L变换的性质 3.4 小波变换 3.4.1 连续小波变换 3.4.2 二进小波变换 3.4.3 离散小波变换 3.5 其他可分离变换 3.5.1 沃尔什变换 3.5.2 哈达玛变换 3.5.3 斜变换 本章参考文献 第4章 图像增强 4.1 空间域单点增强 4.1.1 灰度变换 4.1.2 直方图修正 4.2 图像平滑 4.2.1 噪声门限法 4.2.2 邻域平均法 4.2.3 加权平均法 4.2.4 中值滤波 4.2.5 掩膜平滑法 4.2.6 空间低通滤波 4.3 图像锐化 4.3.1 微分算子方法 4.3.2 Sobel算子 4.3.3 拉普拉斯算子 4.3.4 统计差值法 4.3.5 掩膜匹配法 4.3.6 空间高通滤波 4.4 图像滤波 4.4.1 低通滤波 4.4.2 同态滤波 4.4.3 高通滤波 4.5 彩色增强 4.5.1 假彩色处理 4.5.2 伪彩色处理 本章参考文献 第5章 图像恢复 5.1 图像退化的数学模型 5.1.1 图像退化模型 5.1.2 点冲激函数的退化模型 5.1.3 连续图像退化模型 5.1.4 离散图像的退化模型 5.1.5 离散退化模型的求解 5.2 无约束图像恢复 5.2.1 最小二乘估计 5.2.2 运动模糊图像的恢复 5.3 有约束图像恢复 5.3.1 有约束的最小二乘图像恢复 5.3.2 维纳滤波 5.3.3 功率谱均衡恢复 5.3.4 有约束最小平方恢复 5.4 图像几何校正 5.4.1 几何校正方法 5.4.2 空间几何坐标变换 5.4.3 重采样 本章参考文献 第6章 图像编码与压缩 6.1 图像编码基础 6.1.1 数据压缩的概念 6.1.2 图像压缩的性能评价 6.2 统计编码 6.2.1 编码效率与冗余度 6.2.2 霍夫曼编码 6.2.3 香农-费诺编码 6.2.4 算术编码 6.3 预测编码 6.3.1 预测编码的基本原理 6.3.2 差值脉冲编码调制 6.3.3 最优线性预测 6.4 变换编码 6.4.1 变换编码系统结构 6.4.2 正交变换编码 6.4.3 小波变换编码简介 6.5 无失真压缩编码 6.5.1 引言 6.5.2 基于线性预测的无失真压缩 6.5.3 基于S+P变换的无失真压缩 6.5.4 基于第二代小波变换的无失真压缩 6.6 国际标准简介 6.6.1 JPEG 6.6.2 H.261建议 6.6.3 MPEG-1标准 6.6.4 MPEG-2标准 6.6.5 MPEG-4标准 6.6.6 MPEG-7标准 6.6.7 MPEG-21标准 本章参考文献 第7章 图像边缘检测 7.1 边缘检测的基本概念 7.2 微分边缘检测算子 7.2.1 梯度方法 7.2.2 二阶微分算子 7.3 多尺度边缘检测 7.3.1 Marr-Hildretch边缘检测 7.3.2 Witkin尺度滤波理论 7.3.3 小波变换边缘检测 7.4 基于模糊增强的边缘检测 7.4.1 引言 7.4.2 单层次模糊增强简介 7.4.3 多层次模糊增强 7.4.4 基于多层次模糊增强的边缘提取 7.5 基于Snake模型的边缘检测 7.5.1 Snake模型的数学描述 7.5.2 基于Snake模型的边缘检测 7.6 曲面拟合边缘检测 本章参考文献 第8章 图像分割 8.1 图像分割的一般模型 8.2 基于阈值选取的图像分割方法 8.2.1 直方图阈值 8.2.2 最大熵阈值 8.2.3 二维直方图阈值 8.2.4 统计判决确定门限 8.2.5 局部阈值法 8.3 基于区域的图像分割方法 8.3.1 区域生长法 8.3.2 分裂-合并 8.4 基于边缘检测的图像分割 8.4.1 Hough变换原理 8.4.2 Hough变换应用 8.4.3 广义Hough变换 8.5 模糊分割技术 8.5.1 模糊阈值分割方法 8.5.2 基于二维直方图的模糊门限分割方法 本章参考文献 第9章 图像特征分析 9.1 颜色特征分析 9.1.1 颜色的表示 9.1.2 颜色直方图 9.1.3 直方图不变特征量 9.1.4 颜色矩 9.2 纹理特征分析 9.2.1 空间自相关法 9.2.2 傅里叶功率谱法 9.2.3 共生矩阵法 9.2.4 基于邻域特征统计的纹理分析方法 9.2.5 灰度差分统计方法与行程长度统计法 9.2.6 用分数维描述纹理 9.2.7 Tamura纹理特征 9.3 形状特征分析 9.3.1 引言 9.3.2 基于轮廓的全局方法 9.3.3 基于轮廓的结构方法 9.3.4 基于区域的全局方法 9.3.5 基于区域的结构方法 本章参考文献 第10章 图像配准 10.1 图像配准基础 10.1.1 图像配准的概念 10.1.2 图像配准的一般模型 10.1.3 相似性测度 10.2 基于图像灰度的图像配准 10.2.1 互相关匹配方法 10.2.2 投影匹配算法 10.2.3 基于傅里叶变换的相位匹配方法 10.2.4 图像矩匹配方法 10.3 基于图像特征的配准 10.3.1 算法步骤与特点 910.3.2 图像预处理 10.3.3 特征选择 10.3.4 图像匹配 10.4 最小二乘图像匹配方法 10.4.1 基本思想 10.4.2 基本算法 10.5 快速匹配方法 10.5.1 分层搜索算法 10.5.2 基于遗传算法的匹配方法 10.5.3 基于金字塔分级搜索的匹配方法 本章参考文献 第11章 图像融合 11.1 图像融合的基本原理 11.1.1 信息融合的概念 11.1.2 多源遥感图像融合 11.1.3 图像融合的模型框架与算法 11.1.4 遥感图像融合效果的评价 11.2 小波变换融合法 11.2.1 传统的小波变换融合方法 11.2.2 基于特征的小波变换融合方法 11.3 基于PCA变换与小波变换的图像融合 11.3.1 PCA(主分量分析)变换融合法 11.3.2 基于PCA变换与小波变换的融合算法 11.4 基于IHS变换与小波变换的图像融合 11.4.1 IHS变换融合法 11.4.2 基于IHS变换与小波变换的融合算法 本章参考文献 第12章 图像分类 12.1 图像分类的概念与原理 12.1.1 图像分类的概念 12.1.2 图像分类的原理 12.2 统计分类方法 12.2.1 监督分类 12.2.2 非监督分类 12.3 模糊分类方法 12.3.1 模糊集合 12.3.2 模糊关系 12.3.3 模糊分类 12.3.4 基于模糊关系的模式分类 12.3.5 模糊聚类方法 12.3.6 改进的模糊C-均值算法 12.4 神经网络分类方法 12.4.1 人工神经网络基础 12.4.2 神经网络监督分类方法 12.4.3 神经网络非监督分类方法 12.5 基于广义图像的神经网络遥感图像分类方法 12.5.1 广义图像 12.5.2 算法的实现过程 12.5.3 实验结果与性能比较 12.6 基于证据理论与神经网络的遥感图像分类方法 12.6.1 证据理论 12.6.2 算法的实现过程 12.6.3 实验结果与性能比较 本章参考文献 第13章 图像识别 13.1 图像识别的基本原理 13.2 模板匹配识别技术 13.2.1 模板匹配一般模型 13.2.2 序贯相似性检测算法 13.3 神经网络图像识别技术 13.3.1 神经网络识别的一般模型 13.3.2 BP神经网络识别技术 13.3.3 Kohonen神经网络识别技术 13.4 模糊识别技术 13.4.1 隶属原则识别法 13.4.2 择近原则识别法 13.4.3 一种手写文字模糊识别技术 13.5 基于隐马尔可夫模型的识别技术 13.5.1 隐马尔可夫模型基础 13.5.2 基于隐马尔可夫模型的人脸识别 13.6 车牌识别技术 13.6.1 系统简介 13.6.2 车牌图像定位分割算法 13.6.3 车牌字符的识别 本章参考文献 第14章 c基于内容的图像检索 14.1 基于内容的图像检索概述 14.1.1 基于内容的检索 14.1.2 基于内容的图像检索 14.1.3 基于内容的图像检索相关技术 14.1.4 基于内容的图像检索系统 14.2 基于颜色特征的图像检索 14.2.1 直方图方法 14.2.2 中心矩法 14.2.3 参考颜色表法 14.2.4 颜色对方法 14.2.5 基于主色调的检索方法 14.2.6 结合空间信息的图像检索方法 14.3 基于纹理特征的图像检索 14.3.1 基于共生矩阵的纹理匹配 14.3.2 基于小波变换的纹理匹配 14.3.3 基于Gabor变换的纹理匹配 14.4 基于形状特征的图像检索 14.4.1 基于傅里叶描述的形状检索 14.4.2 基于形状矩的形状检索 本章参考文献 第15章 图像数字水印技术 15.1 图像数字水印技术概述 15.1.1 信息隐藏技术 15.1.2 数字水印技术 15.2 空域水印技术 15.3 DCT域图像水印技术 15.3.1 DCT域图像水印研究综述 15.3.2 算法实例 5.3.3 水印的稳健性测试 15.4 小波域图像水印技术 15.4.1 技术流程 15.4.2 基于低频子带方法 15.4.3 细节分量方法 15.4.4 利用图像编码的方法 15.4.5 Inoue算法 15.5 脆弱图像数字水印技术 15.5.1 脆弱图像数字水印的基本特征和研究状况 15.5.2 算法实例 本章参考文献

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值