【基于时空协同注意变换器的无监督微光视频增强】

空天报国，自强不息

已于 2024-04-22 12:22:38 修改

阅读量996

点赞数 30

分类专栏：低光照图像增强文章标签：计算机视觉图像处理人工智能

于 2024-04-09 16:07:22 首次发布

本文链接：https://blog.csdn.net/weixin_45914567/article/details/136596974

版权

低光照图像增强专栏收录该内容

9 篇文章

订阅专栏

Unsupervised Low-Light Video Enhancement With
Spatial-Temporal Co-Attention Transformer
TIP 2023年 
代码暂无

摘要：

现有的微光视频增强方法主要由以监督方式训练的卷积神经网络（CNNs）控制。由于在真实世界场景中难以选择成对的动态低光/正常光视频，它们通常在合成、静态和均匀运动视频上进行训练，这破坏了它们对真实世界场景的泛化能力。此外，这些方法在处理大规模运动时通常会出现时间不一致性（例如，闪烁伪影和运动模糊），因为细胞神经网络的局部感知特性限制了它们在空间和时间域中对长程依赖性进行建模。
为了解决这些问题，据我们所知，我们提出了第一种无监督的低光视频增强方法，名为LightenFormer，该方法使用时空共注意变换器对长程帧内和帧间相关性进行建模，以增强亮度，同时保持时间一致性。具体地，首先提出了一种有效但轻量级的S曲线估计网络（SCENet）来估计逐像素的S形非线性曲线（S曲线），以自适应地调整输入视频的动态范围。接下来，为了对视频的时间一致性进行建模，我们提出了一种时空细化网络（STRNet）来细化增强的视频。STRNet的核心模块是一种新的时空协同注意转换器（STCAT），它利用多尺度的自注意和交叉注意交互来捕捉帧之间在空间和时间域的长程相关性，用于隐式运动估计。为了实现无监督训练，我们进一步提出了两个基于S曲线可逆性和帧间噪声独立性的非参考损失函数。
在SDSD和LLIV Phone数据集上进行的大量实验表明，我们的LightenFormer优于最先进的方法。

疑问：
1、什么叫做时间不一致性
时间与空间不一致
2、时空共注意变换器对长程帧内和帧间相关性进行建模，以增强亮度，同时保持时间一致性。
时空共注意变换器：这里的“时空”指的是视频数据中的时间（帧间）和空间（帧内）维度。“共注意变换器”可能是指一种基于注意力机制的模型，它能够同时关注视频的时间和空间信息。在深度学习和人工智能领域，注意力机制（尤其是自注意力或Transformer结构）已被证明在处理序列数据（如文本、视频）时非常有效。这种变换器通过学习视频帧内部（空间上）和帧与帧之间（时间上）的相关性，能够对视频进行更加智能的处理。
保持时间一致性：在对视频进行处理（如亮度增强）时，保持视频的时间一致性是一个挑战。这意味着视频的视觉效果和动态变化在时间上应当是连贯的，没有突兀的变化或不自然的跳动。通过建模长程帧内和帧间相关性，该技术能够确保即使在亮度增强等处理后，视频仍然保持流畅和自然的时间流动。
3、帧内和帧间是什么意思。
相邻帧之间的关系（短程时间相关性）和帧内部像素之间的关系（空间相关性）
4、SCENet是用来调整亮度的，他的网络是什么结构，损失函数是什么个构造。
5、STRNet的作用是什么，对视频的时间一致性进行建模
6、时空协同注意转换器（STCAT）
？？结构是什么，作用是什么
7、什么叫做隐式运动估计
隐式运动估计是一种在视频处理、计算机视觉或机器学习领域中使用的技术，它旨在估计视频序列中物体或场景的运动，但与传统的显式运动估计方法不同，隐式运动估计不直接计算运动向量或运动场。相反，它通过学习视频帧之间的变化来间接推断出运动信息。

在传统的显式运动估计方法中，如光流法，直接计算每个像素或特定区域从一帧到下一帧的移动，输出的是一个明确的运动向量场，表明了像素级别的运动方向和距离。这种方法虽然直观，但计算复杂且对噪声敏感。

与之相对，隐式运动估计通常依赖于深度学习模型，如卷积神经网络（CNN）或循环神经网络（RNN），来处理视频序列。这些模型被训练以识别帧之间的隐含模式和变化，从而能够理解或预测运动，而不需要直接计算运动向量。例如，在视频帧间插值、视频增强或视频压缩等任务中，隐式运动估计可以帮助模型更好地理解场景动态，以生成更加平滑、自然的视频序列。

隐式运动估计的优点包括：

鲁棒性：由于不直接依赖于像素级的精确运动估计，隐式方法对噪声和视频质量的变化更为鲁棒。
效率：通过避免显式计算复杂的运动向量场，隐式方法可以更加高效地处理视频数据。
灵活性：隐式运动估计可以更容易地集成到各种深度学习架构中，为视频分析和处理任务提供支持。
然而，隐式方法也有其局限性，例如它可能需要大量的数据来训练模型，以及对于某些需要精确运动信息的应用场景可能不够准确。因此，选择隐式还是显式运动估计方法需要根据具体任务的需求和条件来决定。
8、多尺度的自注意和交叉注意交互来捕捉帧之间在空间和时间域的长程相关性

"多尺度的自注意和交叉注意交互来捕捉帧之间在空间和时间域的长程相关性"这句话描述的技术通过在多个尺度上使用自注意和交叉注意机制，能够有效地捕捉视频帧之间的复杂空间和时间关系。
9、基于S曲线可逆性和帧间噪声独立性的非参考损失函数

10、SDSD和LLIV Phone数据集是什么数据集

引言

L OW-LIGHT视频增强因其广泛的应用而越来越受到关注，如视频监控[5]、[6]、自动驾驶[7]、[8]和智能机器人[9]。然而，在弱光条件下拍摄的视频通常会出现对比度降低、颜色不准确和细节不清晰的问题，如图所示。1a，这会影响美学质量，并限制高级别任务的性能，如对象跟踪[10]、[11]和动作识别[12]、[13]。尽管摄影师可以通过视频编辑软件（如After Effects、Premiere和FilmoraGo）对视频进行润饰，但这一过程需要复杂的操作和专业技能，对普通用户来说既困难又耗时。因此，人们对一种有效的微光视频增强方法有很大的需求。
随着深度学习的最新进展，微光视频增强方法主要由卷积神经网络（CNNs）主导，该网络以有监督的方式进行训练[3]，[4]，[14]。
然而，由于难以在真实世界场景中收集低/正常光照条件下的对齐视频对，早期数据集[14]、[15]、[16]仅由合成或静态视频组成，如图所示。2a。尽管最近提出了动态数据集[3]、[4]，但它们只覆盖有限的场景或均匀运动（图2b），并且由于专业的光学系统和复杂的捕获设置，很难扩展。此外，由于这些动态数据集通常是通过相机的重复移动捕获的，因此它们在户外场景中容易出现输入和地面实况之间的错位，如图所示。2c。这些限制严重破坏了现有监督方法对真实世界场景的通用性。另一方面，当处理具有大规模运动的视频时，这些方法通常会遇到时间不一致性（例如，闪烁伪影和运动模糊），因为细胞神经网络的局部感知特性限制了它们在空间和时间域中对长程依赖性进行建模。如图6所示，1，当受试者有剧烈运动时，现有技术方法[3]、[4]的增强结果中会出现伪影和模糊。同时，现有方法[1]、[2]产生的严重的颜色偏差和明显的噪声也使增强的结果令人不快。
为了解决这些问题，我们提出了一种无监督的微光视频增强方法，称为LightenFormer，该方法对长程帧内和帧间相关性进行建模使用时空协同注意力变换器来增强亮度，同时保持时间一致性。据我们所知，这是第一种无监督的微光视频增强方法。LightenFormer由两个子网络组成：S曲线估计网络（SCENet）和时空精化网络（STRNet）。具体而言，SCENet首先被提出用于估计每帧的逐像素S形非线性曲线（S曲线），以调整低光视频的动态范围，并为随后的时间对准和空间重建提供更可见的细节。
与图像到图像映射范式相比，S曲线调整对于不均匀曝光更灵活同时降低了计算成本。接下来，为了缓解动态场景的时间不一致性，我们设计了一个时空细化网络（STRNet）来进一步细化增强的视频。STRNet的核心模块是一种新的时空协同注意转换器（STCAT），它通过利用多尺度的自注意和交叉注意交互，以任意间隔捕获帧之间在空间和时间域的长程相关性。
STCAT使STRNet能够对隐式运动估计的长程时空依赖性进行建模，从而保持具有大规模运动的动态视频的时间一致性。此外，为了实现重构和降噪的无监督优化，我们分别基于S曲线的可逆性和帧间的噪声独立性提出了反向一致性损失和双向去噪损失。
我们的贡献总结如下：
•据我们所知，我们提出了第一种无监督的低光视频增强方法，名为LightenFormer，该方法能够通过使用时空共同注意力转换器对长距离帧内和帧间依赖性进行建模，在保持时间一致性的同时增强亮度。
•我们提出了一个时空共注意转换器（STCAT）模块，通过多尺度的自注意和交叉注意交互来捕捉帧之间在空间和时间域的长程相关性，使LightenFormer能够在具有大规模运动的动态视频中获得时间一致的表示。
•我们分别基于S曲线的可逆性和帧间的噪声独立性，提出了两种新的非参考损耗函数。配备了这些损失，LightenFormer在没有任何地面实况监督的情况下实现了高质量的重建和降噪
。
•在SDSD和LLIV Phone数据集上的大量实验结果表明，LightenFormer在客观指标和视觉感知质量方面都超过了最先进的方法

建议的方法

A.概述
给定在弱光条件下捕获的2N+1个连续帧I[t−N:t+N]，我们将中间帧It表示为参考帧，将其他帧表示为支撑帧。
所提出的LightenFormer旨在恢复参考框架It的可见性，同时保持与支撑框架的时间一致性。LightenFormer的总体架构如图所示。3由两个子网络组成：S曲线估计网络（SCENet）和时空精化网络（STRNet）。SCENet首先估计每个帧的逐像素S曲线，以自适应地调整其动态范围。接下来，STRNet引入了一个多尺度时空协同注意变换器（STCAT）模块，将支持帧与参考帧对齐，然后进行融合以保持时间一致性。最后我们重构融合的特征以获得具有适当expo的高质量参考帧Ot
B.S曲线估计网络
现有的微光视频增强方法[3]、[4]、[14]通常直接从可见性较差的输入视频中提取时间信息，导致运动估计不准确。同时，这些方法通过图像到图像的转换来调整曝光，这往往会由于采样操作而丢失细节并产生伪影。为了解决这些问题，我们将光增强定义为逐像素曲线估计的任务，并提出了一种有效而轻量级的S曲线估计网络（SCENet）来自适应地调整每帧的动态范围。SCENet不仅提高了视频的亮度，而且为后续的时间对齐和空间重建提供了更多可见的细节。
1） S形非线性曲线：当处理弱光图像时，经验丰富的摄影师经常使用S形非线性曲面（S曲线）手动修饰图像的阴影、中间色调和高光区域的曝光。S曲线的调整策略如图4所示。通过将曝光不足（山脉）和曝光过度（日落）区域映射到S曲线的不同强度区间（右图中的黄色和绿色部分），可以分别增强它们。如[59]中所建议的，S曲线可以通过阴影量φS和高亮量φh来参数化，公式为
在这里插入图片描述
其中x和f（x）是每个像素的输入和输出亮度值。f1（x）是增量函数。在[59]之后，k1、k2和k3被设置为5、14和1.6，以使修改后的音调范围落在[0、0.5]中。φs和φh决定了的形状将曝光不足和曝光过度的像素映射到其期望曝光的S曲线。因此，我们的目标是获得合理的φs和φh来调整输入的曝光度。
2） SCENet框架：由于S曲线的形式对于梯度反向传播是可微分的，我们可以通过卷积神经网络来学习曲线的可调参数。尽管研究人员[60]利用S曲线来调整图像曝光，但他们预测单个
整个图像的φs和φh，这往往会产生不自然的边缘，如图所示。5。为了克服这一障碍，我们将φs和φh公式化为可学习的逐像素参数图，并设计了一个名为SCENet的轻量级网络，用于估计视频每帧的逐像素s曲线。
图3展示了SCENet的体系结构。给定每个帧Ii，i∈[t−N:t+N]，我们首先将Ii转换到YIQ颜色空间，以避免亮度调整[59]导致的颜色饱和度降低，然后将亮度通道图Yi输入到SCENet。接下来，SCENet通过一个浅的类UNet结构预测S曲线参数φS和φh的逐像素映射，该结构由七个具有对称跳跃级联的卷积层组成，以提取多尺度空间和语义特征。通过使用预测的逐像素参数图，Ii的每个像素都有一个对应的S曲线，该曲线具有最佳拟合φS和φh，以自适应地调整其动态范围。增强亮度通道图Y然后通过以下等式1的逐像素曲线映射来获得i。
最后，SCENet根据比率a=Y⏴调整Ii的通道I和通道Q的值i/Yi，并转换回RGB空间以获得增强的帧ξIi
C.时空精化网络
为了提高增强视频的时间一致性，现有的低光视频增强方法通常采用3D卷积[3]来提取多帧的特征，或者使用可变形卷积[4]来将相邻帧的特征与中心帧对齐。然而，受细胞神经网络的局部感知特性的限制，这些方法通常无法在空间和时间域中对长程依赖性进行建模，导致在具有复杂运动的动态场景中性能下降。此外，可变形卷积的训练存在不稳定性，偏移过多可能会严重降低性能[61]，[62]。为了解决这些问题，我们提出了一种时空细化网络（STRNet）来提取丰富的空间特征，并保持动态场景的时间一致性。
STRNet的详细信息如下。
1） STRNet框架：STRNet的总体框架如图3所示。STRNet获取2N+1个连续帧
由SCENet预增强的Plot I[t−N:t+N]作为输入，并将它们馈送到3D卷积层中，以获得潜在特征X∈RF×H W×C，这些特征通过精心设计的特征提取器进行时间对齐。由于黑暗中的运动通常伴随着噪声和模糊，因此需要提取器对空间相关性进行有效建模，同时捕获帧之间的时间相关性。为此，STRNet提出了一种新颖的时空协同注意转换器（STCAT）模块，然后构建了一个多尺度架构，其中每个尺度都包含一个具有残差连接的深度为n的堆叠STCAT块。该设计能够学习各种尺度的表示，以捕捉丰富的语义特征，并利用帧之间的长程依赖性来处理具有大规模运动的动态视频。
然后，我们使用时间和空间注意力（TSA）融合模块[63]来动态融合对齐表示中的信息。TSA通过在时间和空间上应用注意力机制，有效地聚集了用于重建空间精确和时间一致的参考系的有用信息。最后，通过一组级联的残差块来重构融合的特征，以获得高质量的参考帧Ot
2）时空协同注意转换器：STCAT是STRNet的核心模块，它利用自注意和交叉注意交互来捕捉空间和时间域中的长程相关性。具体而言，受视觉转换器[48]、[52]、[54]中注意力机制成功的启发，STCAT首先使用多头自注意来提取参考系的空间位置关系和语义特征。为了便于解释，我们在这一部分描述了单头注意力。根据[47]中的术语，我们通过线性投影从参考系的特征XR∈R H W×C计算QR（查询）、KR（关键）和VR（值），如下所示
在这里插入图片描述
其中PQ、PK和PV∈R C×d是可学习的线性投影矩阵，d是投影特征的通道数。对于QR和KR，自注意映射Asa∈
计算R H W×H W，并用Asa对VR值进行加权，得到Fsa∈R H W
。该过程被制定为

其中softmax（·）表示行softmax操作。与细胞神经网络相比，自注意扩大了感受野，以实现参考系中的长程相互作用，从而获得丰富的空间相关性和语义特征，用于后续的时间比对。
除了从自我注意中学习到的丰富的帧内相关性外，LightenFormer还寻求建立帧间长程依赖关系，以保持时间一致性。为此，引入交叉注意力来隐式跟踪对象运动，以实现稳定的对齐。与自注意不同，交叉注意使用支撑框架而不是参考框架来计算关键向量KS和值向量VS，以建立参考框架和支撑框架之间的每个元素的相关性。
具体地说，给定支撑架的特征XS∈R H W×C和参考架的特征XR∈R H W×C，我们通过XR和XS的线性投影计算QR、KS和VS。然后，我们通过QR和KS计算表示帧间像素相关性的交叉注意映射Aca∈R H W×H W。更新特征Fca∈R H W×d是通过用Aca对VS进行加权而生成的
在这里插入图片描述
在实践中，交叉注意力被用来通过交叉注意力图来反映两个帧的元素之间的相似性。如图6所示，支撑架中的橙色方框与参考架中的绿色方框最相似。这意味着支撑架中的蓝色球沿参考架中的方向移动（图6中的蓝色箭头）。交叉注意力使STCAT能够隐含地估计帧间元素之间的运动轨迹，这可以被视为帧间对齐。
基于结合上述注意力机制的共同注意力，STCAT被构建在Transformer结构中，如图7所示。注意，自注意和交叉注意都采用了多头注意机制，这是通过执行多次注意操作来实现的按如下方式连接所有结果
在这里插入图片描述
其中Wmsa∈R hd×C和Wmca∈R hd×C是可学习的权重矩阵，h是头的数量。STCAT不仅关注参考帧的空间关系和语义特征，而且在不受细胞神经网络感受野限制的情况下，捕捉参考帧和支撑帧之间的长程时间相关性，这使得STRNet能够在具有大规模运动的动态视频中获得时间一致的表示。此外，STCAT消除了细胞神经网络中局部性的归纳偏差，从而避免了当两个相邻物体朝相反方向移动时的错误运动估计。
IV、无监督优化
给定2N+1个连续微光帧I[t−N:t+N]
，我们优化了具有几个损失函数的LightenFormer，以获得高质量的增强参考系Ot，如图所示。3。它们被分为两组，分别训练第III-B节的S曲线估计网络和第III-C节的时空精化网络
A.优化S曲线估计网络为了优化S曲线估算网络（SCENet），我们遵循[28]并引入四个非参考损失函数：曝光校正损失Lexp、总变化损失Ltv、空间一致性损失Lspa和平均强度损失Lcol。
SCENet LSC E的总损失公式为
在这里插入图片描述
其中λe，λt，λs
，和λc在训练过程中平衡不同损失函数的权重。对于输入的每一帧Ii及其从SCENet获得的增强版本，其中i∈[t−N:t+N]，这些损失函数可以如下所示。
1）曝光校正损失：校正曝光不良区域，并保持图中Ii的亮度关系
，我们介绍了曝光校正损失Lexp，其公式为
在这里插入图片描述
其中P是大小为16×16的非重叠局部补丁的数量。Y
i和Yi代表了ξIi和Ii的亮度通道图
分别地EY⏴
p i和EY p i是局部补丁p在Y中的平均强度值
我和易
.e表示良好曝光水平，并根据曝光融合中广泛使用的假设，根据经验设置为中灰度（0.5）[64]。
2）总变化损失：根据先前的平滑度[65]，自然图像中的照明通常是局部平滑的。为了保持照明的平滑性，我们利用总变化损失Ltv来约束相邻像素之间的单调性关系。Ltv定义为
**加粗样式**
其中，Şx和Şy分别是水平和垂直梯度运算。Yi是vx Ii的亮度通道图
.3）空间一致性损失：对于图像，增强前后任意区域与其相邻区域之间的差异应该相同。因此，我们使用空间一致性损失Lspa来测量Ii和2.6.1 Ii的相邻区域差异的一致性
，其公式为
在这里插入图片描述
其中J是大小为4×4的局部区域的数量，并且m∈（J）意味着区域m属于以区域J为中心的相邻区域（上、下、左、右）的集合分别地
4）平均强度损失：为了避免潜在的颜色失真，我们使用平均强度损失Lcol来计算不同通道之间的平均强度值的差异，根据灰色世界颜色恒定性理论[66]，公式为
在这里插入图片描述
其中，EëI p I和EëI q I是通道p和通道q的平均强度值。
B.优化时空精化网络
给定来自SCENet的增强帧Plot I[t−N:t+N]，时空精化网络（STRNet）旨在获得中间帧的高质量输出Ot
.
为了实现STRNet的无监督学习，我们提出了反向一致性损失Linv、双向去噪损失Lbi和感知损失Lper来自正则化Ot
请注意，我们将其表示为参考框架，其他框架为支撑框架。STRNet LST R的总损失可以表示为
在这里插入图片描述
其中权重λi，λb和λp用于平衡这些损失函数的尺度。
1）反向一致性损失：由于基本事实是无效的，训练LightenFormer的一个简单想法是将输出与相应的低光输入视频连接，以获得内容一致性约束。然而，未知的亮度映射关系使我们无法直接最小化输入和输出。为了克服这个问题，我们探索了S曲线的特性来优化视频增强过程。如图3所示，每个像素的强度可以通过特定的S曲线进行调整。直观地说，通过S曲线的转换将增强的视频转换回原始的低光视频是可行的。
因此，我们利用S曲线的可逆性设计了一种新的非参考逆一致性损失Linv，以实现重构的自优化。Linv通过使用从输入本身提取的信息而不是地面实况来定期进行无监督训练，地面实况被公式化为
在这里插入图片描述
其中，它是原始输入的中间帧，并且½·½1是L1距离。S−1（·）表示S曲线的反转，这使得Ot的曝光回到原始输入It.Linv允许LightenFormer在增强前后注意图像内容的一致性，从而获得更逼真的重建结果。
2）双向去噪损失：通常，视频亮度增强会伴随着不相关的噪声，这些噪声会破坏输出视频的可视化。Noise2Noise[67]证明，通过最小化相同底层干净图像的独立噪声观测值对之间的差异，可以有效地减轻噪声。在本文中，我们假设视频中每帧的噪声是独立的。
因此，连续帧可以被视为对由运动变换的相同底层干净帧的观测。
基于与噪声无关的假设，我们提出了双向去噪损失Lbi来缓解不符合地面实况要求的噪声。特别地，Lbi首先通过光流将支撑框架扭曲到Dir It，以获得扭曲的图像O
′t±n（n∈[1，n]），可以公式化为
在这里插入图片描述
其中W（·，·）表示图像扭曲函数，F是FlowNet2[68]估计的光流。然后，我们获得了成对的独立噪声观测值（扭曲的图像O′t±n和输出Ot）。不同方向的Lbi可以公式化为

其中，Mt±n，t（x）表示根据Plot It和O之间的翘曲误差计算的遮挡掩模′t±n作为
在这里插入图片描述
其中，α是一个常数，根据经验设置为50[69]，[70]，并且½·½2是L2距离。
3）感知损失：为了进一步提高增强质量，我们引入了基于S曲线可逆性的感知损失L/，以学习感知相似性

其中，ξ（·）是从ImageNet上预训练的VGG-19模型[72]中提取的特征图。
V.实验结果
在本节中，我们首先介绍实验细节和训练设置。接下来，我们将LightenFormer与其他最先进的方法进行比较。最后，我们进行了全面的烧蚀研究，以深入分析LightenFormer中的组件。由于增强效果最好在视频中观看，我们在补充材料中提供增强视频。
我们在SDSD[4]和LLIV-Phone[45]数据集上评估了所提出的方法。SDSD数据集是第一个用于动态场景的公共配对微光视频数据集，由150个微光视频和室内外场景中的相应地面实况组成。成对的视频是通过机电系统的重复均匀运动拍摄的。由于场景中无法控制的变化，在一些户外场景中，低光视频与其对应的地面实况之间存在错位。每个视频由100-300帧组成，分辨率为1920×1080。为了进行公平的比较，我们使用与SDSD相同的训练/测试分离。
LLIV Phone数据集是一个大规模且具有挑战性的现实世界低光视频增强测试数据集，由18款不同的手机（如iPhone 11 Pro、小米Mix 3、Pixel 4和华为Mate 20 Pro）在不同的低光条件下拍摄。它包含120个低光视频，没有相应的正常光地面真相。根据[45]，我们随机选择一组视频作为测试集，以验证所提出方法的泛化能力。
B.评估指标
为了定量评估不同方法的性能，介绍了四种常用的无参考图像质量度量，包括自然图像质量评估器（NIQE）[73]、统一无参考图像品质和不确定性评估器（UNIQUE）[74]、对比度失真无参考图像质量度量（NIQMC）[75]，以及基于色块的对比度质量指数（CPCQI）[76]。NIQE通过测量与自然图像的统计规律的偏差来估计图像质量。
UNIQUE是一个在多个数据库上训练的基于深度学习的图像质量评估模型。NIQMC是为基于信息最大化的对比度失真评估而设计的。CPCQI通过分析图像的对比度、清晰度、亮度、色彩和自然度来评估视觉质量。
较小的NIQE表示更自然和更受欢迎的品质。与NIQE相反，更大的UNIQUE、NIQMC和CPCQI意味着更好的感知质量。此外，为了评估不同方法的时间一致性，我们还采用了翘曲误差（Ewar p）[69]和平均亮度方差（ALV）[45]度量。Ewar p通过光流反映动态区域中连续帧之间的差异。
ALV测量相邻帧之间相同对象的平均亮度的差异。较小的Ewar p和ALV指示增强视频的更好的时间一致性。
在SDSD数据集上，我们还使用众所周知的全参考指标峰值信噪比（PSNR）和结构相似性（SSIM）[77]来测量增强结果与基本事实之间的差异。
C.实施细节
我们使用Pytorch在单个NVIDIA GeForce RTX 3090 GPU上实现了我们的框架。我们使用间隔为2帧的三个连续帧作为输入。SCENet和STRNet分别进行训练。对于SCENet，我们设置λe=10，λt=200，
λs=1，λc=5，这是由大量实验确定的。网络由Adam优化器[78]用于50个时期，学习率为0.002。批大小设置为32。对于STRNet，我们设置λi=200，λp=2和λb=1000。根据[53]，我们在空间上将每个帧划分为不重叠的窗口，以降低计算成本，并使用移位窗口方法实现跨窗口连接。堆叠的STCAT块的比例设置为3，每个比例包含4个STCAT模块。自我注意和交叉注意的头部大小设置为6。我们选择初始学习率为1e-5的Adam优化器[78]，并采用余弦退火学习率调度器来降低学习率。我们训练STRNet进行375000次迭代，总批量大小为8。
D.定量比较
由于没有无监督视频增强方法，我们将LightenFormer与七种最先进的无监督微光图像增强方法[1]、[2]、[28]、[34]、[35]、[60]、[71]和三种有监督微光视频增强方法[3]、[4]、[14]进行了定量比较。为了进行公平的比较，我们使用作者提供的公共源代码在SDSD数据集[4]上重新训练了这些方法。无监督方法仅在低光视频上训练，而有监督方法在配对数据上训练。在训练阶段，我们将每种方法的损失曲线可视化，以确保收敛性。表I报告了SDSD数据集的定量结果。在没有参考文献的情况下，LightenFormer优于所有监督的微光视频增强方法，并在UNIQUE、NIQMC、CPCQI、ALV和Ewar p方面取得了最好的结果。尽管LightenFormer的NIQE略低于Zero DCE++[1]，但在其他指标方面，Lightenormer大幅度优于Zero DCE++[1]，尤其是ALV和埃瓦尔p，分别为40.5%和68.8%，分别地
这是因为单帧方法不能利用帧上的时间相关性。正如我们所看到的，LightenFormer在时间一致性和图像质量方面都取得了显著的性能。供完全参考LightenFormer实现了与用地面实况训练的超视觉方法相当的结果，并在很大程度上超过了所有无监督的微光图像增强方法。
E.定性比较
为了全面评估图像质量和时间一致性，我们在图中显示了单帧结果。8和多帧结果如图9所示，这表明Light enFormer提供了更自然合理的增强。
特别是，在图8b、8f、9b和9f中，ExCNet[60]和RUAS[35]放大了伴随全局亮度增强的噪声。EnlighteGAN[34]倾向于产生如图8c和9c所示的颜色伪影。零DCE[28]、零DCE++[1]和SGZ[71]遭受颜色偏差和饱和度降低，如图8d、8e、8h、9d、9e和9h所示。此外，RetinexDIP[2]和SDSD[4]容易产生光晕伪影，如图8g和8k中的窗帘。SMID[14]和SMOID[3]的图像对比度降低，如图8i、8j、9i和9j所示。相比之下，LightenFormer（图8l）能够增强低光视频，具有更好的视觉效果、更多的结构细节、更少的颜色伪影和更自然的对比度。
另一方面，图9以15帧的间隔示出了三个增强帧。如图9b和9g所示，ExCNet[60]和RetinexDIP[2]往往会产生亮度不一致的严重闪烁伪影。此外，EnlighteGAN[34]和RUAS[35]的结果中出现了不自然的颜色分布和明显的噪声（图9c和9f）。
此外，基于监督学习的方法容易产生模糊（见图9i、9j和9k中的叶子），因为在SDSD数据集的户外场景中，低光视频与其相应的地面实况之间存在不对齐。尽管零DCE[28]、零DCE++[1]和SGZ[71]在时间上是稳定的，但饱和和曝光不令人满意，如图9d、9e和9h所示。相反，LightenFormer的增强结果（图9l）在时间上是一致的，并且在视觉上令人愉悦。
F.概括
为了评估LightenFormer在具有大规模运动的挑战场景下的泛化能力，我们还在LLIV Phone数据集上进行了广泛的实验[45]。由于LLIV-Phone中不存在基本事实，我们分别对无监督方法和有监督方法执行不同的训练策略。所有比较的无监督方法都是在LLIV-Phone数据集上训练的。对于监督方法，我们使用作者提供的预训练模型和在SDSD数据集上训练的模型对其进行评估，然后根据定量指标选择更好的模型进行比较。表II报告了定量结果，从中我们可以看出，我们的方法在NIQE、UNIQUE、NIQMC、ALV和Ewar p方面取得了最佳结果。尽管我们方法的CPCQI得分低于RetinexDIP[2]，但在评估图像自然度和时间一致性的其他指标方面，我们的方法超过了RetinexDIP[2]。这样的结果证明了所提出的LightenFormer在处理具有各种运动的真实世界视频时的稳定性。此外，我们还在图10中展示了不同方法的视觉结果。如图10b、10c和10g所示，由于亮度和伪影的变化，ExCNet[60]、Enlighten GAN[34]和RetinexDIP[2]的结果在时间上不一致。在图10d、10e和10h中，Zero DCE[28]、Zero DCE++[1]和SGZ[71]存在严重的颜色偏差。此外，RUAS[35]无法恢复正确的曝光，如图10f所示。
SMID[14]、SMOID[3]和SDSD[4]产生运动模糊，如图10i、10j和10k所示。相反，我们的方法（图10l）实现了协调的亮度和自然对比度，同时保持了时间稳定性，没有闪烁的伪影和运动模糊。
G，用户研究
此外，我们还进行了一项用户研究，以评估不同方法的主观感知。具体来说，我们随机从SDSD和LLIV-Phone数据集中选择20个测试视频，并邀请30名参与者（15名男性和15名女性）参加用户研究。为了进行公平的比较，用户研究是在相同的环境（房间、显示器和灯光）中进行的。
然后，我们在所有方法的增强视频之间进行成对比较。增强的结果以随机顺序呈现，以避免主观偏见。对于每个成对的比较，参与者被要求选择：“左边更好”，
在亮度、自然度、对比度、颜色和时间稳定性方面，“正确更好”或“无偏好”。最后，我们使用Bradley Terry模型来估计主观得分，并对评估结果进行排序。如表III所示，我们的方法更受人类受试者的青睐。
H.消融研究
本节提供了一系列消融研究，以评估所提出方法中每个组件的有效性。请注意，所有实验都是在SDSD数据集上进行的。
1）时空精化网络的效果：时空精化网络（STRNet）对长距离时空依赖性进行建模，以提取丰富的空间特征并保持动态视频的时间一致性。
为了验证STRNet的有效性，我们将其删除，并仅使用S曲线估计网络（SCENet）生成最终结果。定量结果如表IV的前两行所示。可以看出，STRNet带来了显著的性能改进。这是意料之中的，因为STR Net有助于LightenFormer保持时间一致性，并减少伴随亮度增强的噪声。
此外，如图6所示，11，与单独使用SCENet增强的结果相比，SCENet和STRNet联合获得的结果在视觉上更具吸引力，噪声和运动模糊更少，这进一步证明了STRNet的有效性。
2）成分在共同注意中的作用：STRNet的核心模块是一种新的时空共同注意转换器（STCAT），它由自注意和交叉注意组成。为了评估共同注意机制的设计，我们进行了三个不同的实验设置STCAT模块：（1）提出的共同注意机制。（2）无交叉注意（表示为MCA）。（3）没有自我注意（表示为MSA）。表IV中的结果表明，缺乏自我注意或交叉注意会导致性能下降。我们分析的原因是，仅使用自注意可能无法捕捉到运动对象在支撑框架之间的相关性，而仅使用交叉注意则无法保留参考框架的特征。这些结果表明，STCAT模块中的共同注意机制在实现视觉愉悦和时间一致的结果方面发挥着重要作用。
3）所提出的损失函数的影响：为了实现STRNet的无监督训练，我们提出了两个非参考损失函数：反向一致性损失Linv和双向去噪损失Lbi。此外，我们还介绍了实际损失L/。表V报告了由所提出的损失函数的不同组合训练的LightenFormer的结果。可以观察到，在图像质量和时间一致性评估指标方面，用总损失进行训练的性能优于去除任何单个损失的性能。如图6所示，12，仅受Linv约束的LightenFormer可以在增强前后保持图像内容的一致性。在没有双向去噪损失的情况下，Lbi的结果具有更多的噪声和伪影，这表明了Lbi在去噪和保持时间一致性方面的有效性。最后，感知损失L/在图像细节和纹理方面进一步提高了增强图像的视觉质量。总之，上述消融研究表明，每一次损失都有助于获得更好的结果。
4）比例和深度的影响：STRNet引入了一种多比例体系结构，以对齐支撑框架的特征，其中每个比例由一个堆叠的STCAT块组成。在这里，我们对堆叠的STCAT块的规模和深度进行了各种实验。比例设置为从1到4，深度设置为从一到六。我们使用翘曲误差（Ewar p）度量来分析增强结果的时间一致性。图13a显示，LightenFormer的性能随着规模和深度的增加而逐渐提高。结果表明，多尺度架构可以帮助模型捕获丰富的语义特征，并在更大区域的帧之间建立元素相关性，以适应动态视频中的大规模运动。如图13a所示，当比例尺从3增加到4，深度从4增加到5时，Ewar p值略有变化。因此考虑到计算负担，我们将比例和深度分别设置为3和4。
5）帧间间隔的影响：在本文中，考虑到计算负担，LightenFormer以三帧为输入。事实上，LightenFormer可以在任意间隔的任何指定长度的视频上使用。图13b报告了帧之间不同间隔的影响。我们可以看到，当间隔设置为2时，会产生最小误差。尽管较大的间隔可以促进模型在时域中捕获长程依赖性，但在处理微小运动时，参考帧和支撑帧之间的元素的大偏移可能导致性能下降。因此，在我们的实验中，帧之间的间隔被设置为2。
I、限制
尽管我们的方法在增强低光视频方面取得了令人印象深刻的效果，但它仍有一些局限性。例如，当处理在具有严重信息损失的极低光照环境中捕获的视频时，我们的方法可能会在增强的结果中产生不希望的噪声，如图14a所示。
此外，我们的方法可能会在低光视频的饱和区域产生光晕伪影，例如图14b中的路灯。未来，我们有兴趣探索微光在原始空间中的增强方法，以很好地处理表现出极低光照和饱和区域的情况。
VI、结论
本文提出了LightenFormer，这是一种新的框架，通过时空协同注意力转换器对长程帧内和帧间依赖关系进行建模，以增强亮度，同时保持时间一致性。据我们所知，这是第一种无监督的微光视频增强方法。本文的主要贡献在于SCENet和STRNet的设计。前者通过逐像素S曲线估计自适应地调整视频的动态范围，后者允许LightenFormer增强时间相关性，以缓解动态场景与大规模运动的时间不一致性。此外，两个新的非参考损耗函数进一步帮助LightenFormer以无监督的方式实现高质量的重建和降噪。在SDSD和LLIV-Phone数据集上的大量实验结果表明，所提出的方法实现了最先进的性能。