【4K-Resolution Photo Exposure Correction at 125 FPS with ∼8K Parameters】

本文链接：https://blog.csdn.net/weixin_45914567/article/details/135007237

4K-Resolution Photo Exposure Correction at 125 FPS with ∼8K Parameters

核心方法：

将图像通过拉普拉斯变换，产生高频和低频层，然后通过像素自适应线性变换依次校正不同的层。
像素自适应线性变换原理是什么，它是如何矫正的，根据什么约束条件呢？
像素自适应线性变换基于图像中每个像素的局部信息，根据像素的邻域或其他特定规则调整每个像素的值。这种方法能够更灵活地处理不同区域的图像特征，从而在不同部分采用不同的线性变换，以达到更好的图像处理效果。
如何矫正：

摘要：

使用深度卷积神经网络或Transformers已经广泛校正了曝光不当的照片的照明。尽管这些方法具有良好的性能，但在高分辨率照片上，这些方法通常会遇到参数量大和计算量大的FLOP问题。在本文中，我们提出了在多层感知架构下的超轻量级（只有~8K参数）多尺度线性变换（MSLT）网络，该网络可以通过Titan RTX GPU以每秒125帧（FPS）的速度处理4K分辨率的sRGB图像。具体而言，所提出的MSLT网络首先通过拉普拉斯金字塔技术将输入图像分解为高频和低频层，然后通过像素自适应线性变换依次校正不同的层，该变换通过有效的双边网格学习或1×1卷积来实现。在两个基准数据集上的实验证明了我们的MSLT在照片曝光校正方面相对于现有技术的效率。广泛的消融研究验证了我们的贡献的有效性。

##介绍
带摄像头的智能手机的普及鼓励人们像摄影师一样拍摄日常生活的快照。然而，快门速度、焦孔径比和/或ISO值的设置不准确可能会导致拍摄照片曝光不当，从而降低视觉质量[4]。为了适当地调整照片曝光以达到视觉上吸引人的目的，开发有效的边缘设备曝光校正方法至关重要。
在过去的几十年里，已经提出了微光增强方法[10，25，38]和过曝光校正方法[3，9]来分别调整曝光不足和过曝光图像的亮度。然而，弱光增强方法很难纠正过度暴露的图像，而过曝光校正方法将在曝光不足的图像上失败[4]。高动态范围（HDR）色调映射方法[18，19，31，33]也可以在一定程度上调整内容的不适当照明，但主要增强不适当曝光区域的局部细节，同时减少动态范围。最终，所有这些方法都不适用于曝光校正，这需要对图像中的不当曝光进行全局调整。

弱光增强方法很难纠正过度暴露的图像
高动态范围（HDR）色调映射方法

最近，出现了几种基于卷积神经网络（CNN）[4]或Transformer[13]的曝光校正方法。例如，多尺度曝光校正（MSEC）[4]使用拉普拉斯金字塔技术[6，15，28]和UNet架构[39]执行分层曝光校正。后来，[48]的工作利用局部颜色分布先验（LCDP）来定位和增强不适当暴露的区域。基于注意力的照明自适应变换器（IAT）[13]估计变换器架构[47]下与图像信号处理器（ISP）相关的参数。尽管具有良好的性能，但这些曝光校正CNN或变压器受到巨大的参数量和计算成本的限制[4，13]。

为了在提高模型效率的同时产生视觉上令人愉悦的结果，在本文中，我们提出了用于高分辨率图像曝光校正的超轻量级多尺度线性变换（MSLT）网络。具体来说，我们首先通过拉普拉斯算子将输入图像分解为高频和低频层金字塔技术[6，15，28]来执行从粗略到精细的曝光校正。然后，我们设计简单的线性变换网络来逐步校正这些层，消耗较小的参数量和计算成本。对于低频层，我们采用双边网格学习（BGL）框架[20，51，53]来学习不适当和适当曝光图像对之间的逐像素仿射变换。为了学习BGL中的上下文感知变换系数，我们提出了一个无参数的上下文感知特征分解（CFD）模块，并将其扩展到多尺度仿射变换。对于高频层，我们只需通过两个通道1×1卷积层学习像素校正掩模。

得益于使用通道式多层感知（MLP）进行从粗到细曝光校正，我们最大的网络MSLT++具有8098个参数，而使用RTX GPU处理1024×1024×3图像仅需要0.14G和3.67ms。作为比较，基于CNN的MSEC[4]、LCDP[48]和基于变压器的IAT[13]的参数量分别为～7015K、～282K和～86.9K，而相应的FLOP/速度分别为73.35G/240.46ms、17.33G/507.67ms和22.96G/153.96ms。在两个基准数据集[4，8]上的实验表明，与现有技术的曝光校正方法相比，我们的MSLT实现了更好的定量和定性性能。ME数据集上的比较如图1所示。

主要贡献总结：
•开发了具有最多8098个参数的多尺度线性变换网络，该网络在4K分辨率（3840×2160×3）图像上运行最多125 FPS，具有有效的曝光校正性能。
•为了加速多尺度分解，设计了一个双边网格网络（BGN）来对低频层的曝光进行像素明智的校正。在这里，通过通道MLP而不是CNN或Transformers来实现BGN，以使我们的MSLT具有较小的参数量和计算成本。
•提出了一个上下文感知特征分解（CFD）模块来学习BGN中的层次变换系数，以进行有效的曝光校正。

学习和疑问：
1、双边网格网络（BGN）来对低频层的曝光进行像素明智的校正？？？如何矫正，矫正的依据又是什么？？
2、通道MLP相对于他们是参数量和计算量小吗?
3、上下文感知特征分解（CFD）模块来学习BGN中的层次变换系数？？它是如何学习层次变换系数的？？
4、现在一般手机的图像大小是多少，这个能否保持实时拍照？显然不能？？指标系数是多少呢？？

方法：

网络概述

如图2所示，我们用于曝光校正的多尺度线性变换（MSLT）网络由四个紧密结合的部分组成，介绍如下。
**多尺度图像分解。**如[4]中所建议的，从粗到细的架构对于曝光校正任务是有效的。给定一个输入图像I∈RH×W×3，我们使用拉普拉斯金字塔技术[6]将图像I分解为一个n−1个高频层序列{Hi∈R H 2i−1×W 2i−2×3|I=1，…，n−1}和一个低频层Ln∈R H.2n−1×W2n−1×3。
低频层校正是在双边网格学习框架下通过学习像素自适应曝光校正来执行的[51]。为了学习仿射系数的有意义的双边网格，我们提出了一个无参数上下文感知特征分解（CFD）模块，并将其扩展到分层版本以获得更好的性能。
高频层校正通过以下方式实现用两个连续的1×1卷积预测的舒适掩模明智地乘以每一层像素。
最终重建通过拉普拉斯重构[6]对不同频率的曝光校正层执行，以输出良好曝光的O∈RH×W×3。
在这里插入图片描述
图2:我们的n=4的多尺度线性变换（MSLT）网络概述。给定曝光不正确的输入图像I∈RH×W×3，我们的MSLT首先通过拉普拉斯金字塔分解将图像I分解为高频层{Hi∈R H 2i−1×W 2i−2×3|I=1,2,3}和低频层L4。L4由所提出的双边网格网络进行校正：1）L4被输入到自调制特征提取（SFE）模块以获得制导图G，2）L4向下采样到大小为48×48×3的Plot L4，用于通过层次特征分解（HFD）模块学习仿射系数B的3D双边网格，3）使用制导图G，系数B被切片以产生用于像素明智地校正L4的系数B的2D网格。通过经由两个1×1卷积学习对应的掩码来校正高频层{Hi|i=1，2，3}。最后，重建校正后的低/高频层，以输出曝光校正后的图像O。SFE和HFD模块如图3所示。

这个算法的思路：将输入图像进行拉普拉斯变换，将图像分为多个高频和一个低频，然后分别对高频和低频进行曝光矫正，然后再利用拉普拉斯重构。

2. 低频层校正
照明信息主要在低频[4]中，因此我们更关注低频层Ln以进行有效的曝光校正。受其在高效图像处理[11，51，53]方面的成功启发，我们采用双边网格学习[12]来校正低频层Ln的曝光。如图2所示，我们的双边网格网络包含三个组成部分：1）学习引导图，2）估计仿射系数的双边网格，以及3）系数变换。
学习指导图.我们提出了一个自调制特征提取（SFE）模块来学习与Ln大小相同的制导图G。如图3（b）所示，SFE模块使用两个1×1卷积和全局平均池（GAP）来调制提取的特征图。
在这里插入图片描述
双边网格学习是什么：

估计仿射系数的双边网格。我们首先对低频层Ln下采样到Ln∈
R48×48×3。每个通道的平均值和标准差（std）分别大致反映了该特征图的亮度和对比度[46]。利用这些信息有助于估计用于曝光校正的仿射系数的双边网格。为此，我们提出了一个无参数的上下文感知特征分解（CFD）模块来提取上下文感知特征和残差特征。如图3（a）所示，contextaware特征是通过将原始特征通道明智地乘以分别由全局平均池和全局std池计算的平均值和std的总和来获得的。我们通过级联三个参数共享CFD和SFE模块，将CFD扩展到分层特征分解（HFD）模块，如图3（c）所示。目标是学习仿射系数B∈R16×16×72的三维双边网格，其中每12个通道表示一个3×4的仿射矩阵。我们通过信道1×1卷积来实现我们的HFD模块，以执行空间一致性和像素自适应亮度调整。三个1×1卷积在ReLU之前共享参数，具有较小的参数量和计算成本（图3（c））。
**系数变换。**利用导图G∈R H 2n−1×W 2n−2，我们将仿射系数B∈R16×16×72的三维双边网格上采样回系数B∈R H 2nn−1×W2n−1的二维双边网格，然后通过三线性插值校正低频层Ln[11]。网格B的每个单元包含用于像素自适应仿射变换的3×4矩阵。最后，B中的仿射变换将逐个像素地作用于低频层Ln，以获得曝光校正的低频层Ln。
在这里插入图片描述
低频层矫正没有看懂，

高频层校正

使用校正后的低频层，现在我们按顺序校正高频层{Hi|i=1，…，n−1}的i=n−1。。。，1.通过以元素方式将每个高频层Hi与舒适掩模相乘来实现校正？？？？。每个掩模由两个1×1卷积层组成的小MLP预测，它们之间有LeakyReLU[36]。为了校正高频层Hn−1，我们首先沿着通道维度将其与上采样的低频层Ln和上采样的校正层Ln连接。然后将级联层放入小MLP中，以预测掩模Mn−1。由于级联层有九个通道，我们将小MLP中第一个1×1卷积层的输入和输出通道数分别设置为九个，并将第二个1×2卷积层的输出和输入通道数分别设为九个和三个。通过将高频层Hn−1与掩模Mn−1元素明智地相乘，我们获得曝光校正高频层Hn-1。此外，预测的掩模Mn−1将被重新用作MLP的输入，用于掩模预测的下一高频层的校正。对于i=n−2。。。，1，我们将前一层中输出的掩码Mi+1上采样到当前层的MLP中，以预测新的掩码Mi。与预测掩码Mn−1的MLP不同，用于预测掩码{Mi+1|i=n−2，…，1}的MLP对于两个1×1卷积层都有三个输入和输出通道。类似地，每个掩模Mi明智地与高频层Hi元素相乘，以输出曝光校正的高频层Hi。最后，我们从曝光校正的低/高频层{H1，…，Hn−1，Ln}重建输出图像O。在这里，我们为我们的MSLT设置n=4。为了研究通过我们的MSLT进行曝光校正的效果，我们将输入图像I和输出图像O从sRGB颜色空间转换到CIELAB颜色空间。我们将I和O的亮度通道表示为IL和OL，分别计算它们的差值残差R=OL−IL。将Rmax表示为R的最大绝对值，即Rmax=max|R|。残差R通过R/Rmax归一化为[-1，1]，表示逐像素校正强度，其中（0，1]（或[-1，0））表示亮度增强（或收缩）。如图4所示，校正强度的热图与输入I的上下文关系密切。这表明我们的MSLT确实执行像素自适应曝光校正。

网络加速

所提出的MSLT网络通过标准高斯核[5]实现拉普拉斯金字塔分解，这在当前的深度学习框架中没有得到优化[2，37]。为了加快我们的MSLT，我们将高斯核替换为可学习的3×3卷积核，该核通过PyTorch框架进行了高度优化[29]。通过在我们的MSLT中引入3×3卷积核，我们用更多的参数和计算成本打破了其完全MLP架构。我们的MSLT速度在1024×1024 sRGB图像上从4.34ms明显提高到4.07ms，在3840×2160 sRGB图像中从19.27ms显著提高到11.04ms。我们将这种变体网络称为MSLT+。通过实验，我们还观察到可学习的3×3卷积核可以对每个图像进行自适应分解，以更好地校正不同层的曝光。考虑到高频层H1是所有层中分辨率最大、信息最细的层，因此值得研究避免对该层进行进一步的模型加速度校正是否可行。事实上，即使不校正H1，MSLT+中的可学习卷积核仍将产生自适应拉普拉斯金字塔分解，以补偿整体曝光校正性能。为了说明这一点，我们在校正高频时去除了掩模预测MLPMSLT+中的层H1，并直接将H1与其他校正层{L4，H3，H2}一起用于最终重建。我们将这种变体网络称为MSLT++。如图5所示，在两张曝光不足和曝光过度的图像上，我们观察到MSLT、MSLT+和MSLT++的曝光校正图像的视觉质量相似。这表明，去除高频层H1的校正可能对我们的MSLT++的曝光校正影响很小，并带来MSLT+的计算成本和推断时间的额外减少。例如，我们的MSLT++在1024×1024 sRGB图像上将MSLT+的速度从4.07ms提高到3.67ms，在3840×2160（4K）sRGB图像中将MSLT+速度从11.04ms提高到7.94ms。

加速
标准高斯核变成3×3卷积核 MSLT+
标准高斯核变成3×3卷积核+去除了掩模预测MLPMSLT+中的层H1 MSLT++

3.5.实施细节
Adam[26]使用均方误差（MSE）损失函数优化了我们的MSLT网络，β1=0.9，β2=0.999。初始学习率设置为1×10−3，并通过每5个时期的余弦退火计划衰减到1×10–7。批量大小为32。对于训练集，我们将图像随机裁剪成512×512个补丁。这里，我们有n=4个拉普拉斯金字塔层，64×64低频层被下采样到48×48，用于学习仿射系数的精确3D双边网格。我们的MSLT网络由PyTorch[29]和MindSpore[1]实现，在Titan RTX GPU上进行200个时期的训练，大约需要18个小时。

MindSpore 是干什么的

4.实验

4.1 数据集和度量
数据集。我们在两个基准数据集上评估我们的MSLT网络：ME数据集[4]和SICE数据集[8]。ME数据集建立在MIT Adobe FiveK数据集[7]的基础上，根据该数据集，每个原始sRGB图像都使用五个相对曝光值｛−1.5、−1、0、+1、+1.5｝进行渲染，以模拟曝光不当的图像。五位专业摄影师（A-E）手动修饰原始sRGB图像，以产生正确曝光的图像（“基本事实”）。如[4]中所建议的，我们使用专家C修饰的图像作为训练目标。该数据集包含17675张训练图像、750张验证图像和5905张测试图像。
SICE数据集被随机分为412、44和100个序列，分别作为训练集、验证集和测试集。如[23]所示，我们将每个序列中的第二个和最后一个第二个图像设置为曝光不足或曝光过度的输入。对于训练集中的每个图像，我们随机裁剪30个大小为512×512的补丁进行训练。
评估指标。我们使用峰值信噪比（PSNR）、结构相似性指数（SSIM）[49]和习得感知图像块相似性（LPIPS）[52]这三个评估指标来测量曝光校正图像与“基本事实”之间的距离。对于LPIPS，我们使用AlexNet[27]来提取特征图。

4.2.比较结果
我们将我们的MSLT与四种曝光校正方法（MSEC[4]、LCDP[48]、FEMNet[24]和IAT[13]）、两种增强方法（Zero DCE[21]和SCI[35]）和一种图像翻译方法（LPTN[30]）。为了验证我们的具有MLP的MSLT的设计，我们还将其与具有7683个参数的普通信道MLP进行了比较（补充文件中提供了更多细节）。
客观结果。对于ME和SICE数据集，如表1和表2所示，我们的MSLT获得了比LPTN、Zero DCE、SCI和Channel MLP更好的PSNR、SSIM和LPIPS结果。在ME方面，我们的MSLT比MSEC和IAT获得了更好的结果，并且与LCDP和FEMNet相当。在SICE上，我们的MSLT实现了与MSEC相当的性能，但结果略逊于IAT和FEMNet。然而，如表3所示，我们的MSLT表现出比所有其他比较方法更高的效率。速度为了部署到实际应用中，对推理速度提出了很高的要求。为了测量模型的速度，我们随机生成一个大小为1024×1024×3或3840×2160×3的“图像”，重复推理测试100次，并将结果平均作为比较方法的速度。速度测试都在Titan RTX GPU上运行。结果如表3所示。可以看出，我们的MSLT++在1024×1024×3张量上的推理速度为3.67ms，比所有其他方法都快得多。在3840×2160×3的高分辨率张量上，我们的MSLT++达到了7.94ms的推理速度，也比其他比较方法快。
在这里插入图片描述
表1。不同方法在ME数据集上的定量结果[4]。我们分别将五位专家渲染的正确曝光的图像作为地面实况图像。最佳、第二好和第三好的结果分别用红色、蓝色和粗体突出显示。

表2。SICE数据集上不同方法的定量结果[50]。最佳、第二好和第三好的结果分别用红色、蓝色和粗体突出显示。
在这里插入图片描述

表3。模型大小、计算成本和速度（ms）的比较。速度是在Titan RTX GPU上测试的。MSEC表示“MSEC w/o adv”。最佳、第二好和第三好的结果分别用红色、蓝色和粗体突出显示。。
视觉质量。曝光校正任务的最终目标是恢复更逼真的图像，提高观察者的视觉体验。因此，视觉质量图像的质量也是需要考虑的一个重要因素。在图6中，我们分别通过比较方法提供了ME数据集中“Manor”和SICE数据集中“Mountain”的校正图像。在补充文件中可以找到更直观的比较结果。在过度曝光的“Manor”图像上，可以看到Zero DCE、SCI、LPTN和Channel MLP几乎无法减弱曝光。与LCDP和IAT相比，我们的MSLT在云、墙和草坪中生成了更好的细节。通过MSEC校正的图像具有太高的对比度而不真实。在曝光不足的“山”上，我们的MSLT在整体亮度和绿叶细节方面优于其他产品。
在这里插入图片描述
图6。不同方法曝光校正图像的视觉质量比较。第1行和第2行：来自ME数据集的一张过度曝光图像的视觉结果[4]。第3行和第4行：SICE数据集的一张曝光不足图像的视觉结果[8]。

四种曝光校正方法（MSEC[4]、LCDP[48]、FEMNet[24]和IAT[13]）
两种增强方法（Zero DCE[21]和SCI[35]）
一种图像翻译方法（LPTN[30]）

4.3.消融研究
在这里，我们提供了我们的MSLT在曝光校正方面的详细实验来研究：1）我们的MSLT中的拉普拉斯金字塔层的数量；2）如何设计上下文感知特征分解（CFD）模块；3） HFD中CFD模块的数量；4）如何在双边网格中开发层次特征分解（HFD）模块；5）高频层的校正如何影响我们的MSLT和MSLT+。所有实验都是在ME数据集[4]上进行的。将五位专家修饰的图像分别视为“地面实况”图像，以计算平均PSNR、SSIM和LPIPS值。我们在1024×1024 sRGB图像上计算FLOP和速度。带阴影的行表示我们的MSLT网络对曝光校正的结果。补充文件中提供了更多结果。
1）在我们的MSLT中拉普拉斯金字塔（LP）层的数量。拉普拉斯金字塔结构被部署在我们的MSLT网络中，以减少计算成本和推理时间（速度）。如表4所示，通常，具有更多层的拉普拉斯金字塔产生更小的低频层。由于主要成本支付给了这一层，我们的MSLT将更快。然而，当LP层数为5时，低频层很小，这降低了我们的MSLT网络。此外，5个LP层的分解抵消了整体加速度，并减缓了我们用于曝光校正的MSLT。通过考虑MSLT的性能和推理速度，我们为MSLT网络中的LP分解设置了n=4。
在这里插入图片描述
表4。通过我们的MSLT对不同数量（n）的拉普拉斯金字塔水平进行曝光校正的结果。“w/o LP”意味着我们不使用拉普拉斯金字塔。
2）如何设计上下文感知特征分解（CFD）模块？在我们的CFD中，我们使用每个通道的平均值和标准差来学习上下文特征。为了证明其效果，我们用实例规范化（IN）[45]或通道注意力（CA）[22]替换了这一部分，并保留了我们的MSLT的其余部分。如表5所示，我们的CFD在三种方法中实现了最高的PSNR和LPIPS，并且具有与“in”版本相当的SSIM。这表明使用均值和每个通道的标准偏差信息确实有效。
在这里插入图片描述
表5。HFD中CFD模块不同变体的MSLT结果。“CFD”：上下文感知特征分解。“IN”：具有特征分解的实例规范化[45]。“CA”：具有特征分解的渠道注意力[22]。
3）我们的HFD中CFD模块的数量。为了更好地学习仿射系数的双边网格，我们将上下文感知特征分解（CFD）模块扩展到层次结构。作为比较，我们设置了不同数量的CFD模块作为层次特征分解（HFD）的组成。从表6中可以发现，当HFD的CFD模块数量从1个增加到5个时，我们的MSLT的性能先提高后降低，使用三个CFD达到最佳结果。这表明多个模块增强了上下文转换的能力。然而，没有必要使用过多的CFD模块来提取冗余特征。因此，我们在HFD模块中使用了三个CFD模块。
在这里插入图片描述
表6。我们在所提出的HFD模块中使用不同数量CFD模块的MSLT的结果。
4）如何在双边网格中开发层次特征分解（HFD）模块？为了回答这个问题，我们将各种具有可比参数的网络与我们的HFD模块应用于进行实验。为了便于表述，我们将由多个1×1卷积层和ReLU激活层组成的网络表示为“Conv-1”。类似地，当仅使用3×3卷积时，网络被表示为“Conv3”。补充文件中提供了更多详细信息。如表7所示，尽管“Conv-1”和“Conv-3”也实现了快速，但我们的带有HFD的MSLT在PSNR、SSIM和LPIPS方面实现了更好的定量结果。这表明我们的HFD模块很好地估计了用于曝光校正的仿射系数的3D双边网格。
在这里插入图片描述

表7。我们在开发的双边电网中使用HFD模块的不同变体的MSLT的结果。“Conv-1”（或“Conv-3”）：由多个1×1（或3×3）卷积层和ReLU激活函数组成的网络。“HFD”：我们的层次特征分解模块。
5）高频层的校正如何影响我们的MSLT和MSLT+？
为此，对于MSLT和MSLT+，我们使用部分而不是所有校正的高频层来进行LP重建。具体而言，我们的实验设置如表8所示。Hi表示我们使用校正后的高频层进行LP重建。这些高频层用于L4的LP重建。类似地，Hi意味着我们直接使用未处理的高频层进行LP重建。如表8所示，从H3+H2+H1到H3+H2+A1，我们明显减少了FLOP和推断我们的MSLT和MSLT+的时间（速度），对客观指标的影响很小。在我们的MSLT+中，H1是通过可学习卷积生成的，这可以部分补偿不处理H1的影响。这就是为什么我们的加速策略对MSLT+的客观结果几乎没有影响。所有这些结果表明，我们在MSLT+上应用的加速策略对目标度量的影响很小，但可以明显降低计算成本和推理速度。
在这里插入图片描述
表8。我们的MSLT和MSLT+的结果，其中拉普拉斯金字塔中的一些高频层未经MSLT/MSLT+处理。“嗨”：未处理的高频层。“嗨”：曝光校正后的高频层。
5.结论
在本文中，我们提出了一种用于曝光校正的轻量级且高效的多尺度线性变换（MSLT）网络。所提出的MSLT顺序校正通过拉普拉斯金字塔技术分解的多尺度低/高频层的曝光。对于低频层，我们开发了一个双边网格网络来学习上下文感知仿射变换，用于像素自适应校正。高频层以元素方式乘以由通道式MLP学习的舒适掩模。我们还通过可学习的多尺度分解和去除最大高频层的校正来加速我们的MSLT。由此产生的MSLT++网络具有8098个参数，仅需0.88G FLOP即可以125 FPS的速度处理4K分辨率的图像。在两个基准上的实验表明，我们的MSLT网络非常有效，并表现出有希望的曝光校正性能。