SDE数据集及Evlight-------CVPR2024文章A Large-Scale Real-World Event-Image Dataset and Novel Approach精读翻译

在这里插入图片描述

前言

这是香港科技大学发表在CVPR2024的一篇弱光增强的论文。

提出一种SDE数据集(真实世界,时空一致的事件图像数据集)

提出一种EvLight网络,设计了多尺度整体融合分支,SNR引导的区域特征选择。

学习资料:

  • 论文题目:《Towards Robust Event-guided Low-Light Image Enhancement: A Large-Scale
    Real-World Event-Image Dataset and Novel Approach》(面向鲁棒的事件引导图像增强:大规模真实世界事件图像数据集和新方法)
  • **原文地址:https://arxiv.org/pdf/2404.00834

img

Abstract—摘要

翻译

近年来,事件相机由于其独特的优势(如高动态范围)而在弱光图像增强(LIE)方面受到了广泛关注。然而,目前的研究被过分限制,由于缺乏大规模,真实世界,时空一致的事件图像数据集。为此,我们提出了一个真实世界(室内和室外)的数据集,包括超过30K对图像和事件在低照度和正常照明条件下。为了实现这一点,我们利用一个机器人手臂,跟踪一个一致的非线性轨迹,以策展数据集的空间对齐精度低于0.03毫米。然后,我们引入了一个匹配对齐策略,使90%的数据集的误差小于0.01s。基于数据集,我们提出了一种新的事件引导LIE方法,称为EvLight,在现实世界的低光场景中具有鲁棒性。具体来说,我们首先设计了多尺度整体融合分支,从事件和图像中提取整体的结构和纹理信息。为了确保鲁棒性对区域照明和噪声的变化,我们然后引入了一个信号噪声比(SNR)引导的区域特征选择,选择性地融合高SNR区域的图像特征,并通过从事件中提取区域结构信息来增强低SNR区域的图像特征。在我们的数据集和合成SDSD数据集上进行的大量实验表明,我们的EvLight显著优于基于帧的方法,例如,[4]1.14 dB和2.62 dB。


精读

(1)数据集设计

过去方法以及不足: 目前的研究限制是由于缺乏大规模,真实世界,时空一致的事件图像数据集。

**解决方案:**提出了一个真实世界(室内和室外)的数据集,包括超过30K对图像和事件在低照度和正常照明条件下。

(2)EvLight:一种新的事件引导LIE方法

方法设计:

  • **多尺度整体融合分支:**从事件和图像中提取整体的结构和纹理信息。
  • **区域特征选择:**以信号噪声比(SNR)引导,选择性地融合高SNR区域的图像特征,并通过从事件中提取区域结构信息来增强低SNR区域的图像特征,确保对区域照明和噪声的变化鲁棒性。

实验结果: 在我们的数据集和合成SDSD数据集上进行的大量实验,们的EvLight显著优于基于帧的方法1.14 dB和2.62 dB。


1. Introduction—引言

翻译

在次优照明条件下捕获的图像通常会表现出各种类型的退化,例如能见度差、噪声和颜色不准确 。因此,低光图像增强(LIE)成为改善低光图像质量的重要任务。 LIE 对于下游任务至关重要,例如人脸检测和夜间语义分割 。 最近,随着深度学习的出现,人们提出了丰富的基于帧的方法,从增强对比度、去除噪声到校正颜色。 尽管性能得到了显着提升,但当基于帧的相机提供的视觉细节(例如边缘)不太明显时,这些方法经常会遇到曝光不平衡和颜色失真的问题,如图 1 © 所示。

事件摄像机是仿生传感器,可生成具有高动态范围 (HDR)、高时间分辨率等的事件流 [33, 55]。 然而,迄今为止,很少有人将基于帧的相机和事件相机相结合来解决 LIE 任务 。 一个障碍是极其缺乏具有时空对齐图像和事件的大规模现实世界数据集。 例如,[52]提出了一种无监督框架,不需要配对的事件图像数据,并且[24, 25]利用合成数据集进行训练。 尽管如此,这些方法在现实世界的弱光场景中的应用能力较差。 LIE数据集是一个真实世界的事件图像数据集,具有配对的低光/正常光序列,通过简单地调整室内灯光(人造光波动)和室外曝光时间,同时保持固定的相机位置来获得。 因此,与之前基于帧的数据集 SMID类似,该数据集仅局限于静态场景。

在本文中,我们提出了一个大规模的真实世界数据集,名为 SDE 数据集,包含超过 30K 对时空对齐的图像和事件(参见图 2 © 中的示例),在低光和正常情况下捕获 - 光照条件(第 3 节)。 要构建这样的数据集,固有的困难源于确保成对的低光和正常光序列之间精确的空间和时间对齐所涉及的复杂性,特别是对于非线性运动的动态场景。 为了实现这一目标,我们设计了一个机器人对准系统来保证空间对准,其中 DAVIS346 事件相机安装在通用 UR5 机械臂上,见图 2 (a)。 我们的系统显示出显着的空间精度,误差幅度仅为 0.03 毫米,比基于帧的数据集 SDSD 的误差为 1 毫米有了显着的改进。 此外,与 SDSD 中的匀速线性运动设置和 LIE 数据集 [18] 中的静态场景不同,我们的系统包含具有复杂轨迹的非线性运动。 这显着增强了现实场景数据集的多样性。 对于时间对齐,获得对齐序列的直接方法是根据特定的运动开始和结束时间戳对它们进行剪辑。 然而,即使使用相同的相机和机器人设置,每个剪辑序列中运动开始时间戳(左红线)和初始帧时间戳(洋红色线)之间的间隔(图 2 (b) 中的蓝色区域)也是不同的 ,导致随机时间错误。 为此,我们提出了一种新颖的匹配对齐策略来减少时间差异。

在数据集的支持下,我们提出了一种事件引导的 LIE 方法,称为 EvLight,以在现实世界的低光场景中实现稳健的性能。 基本前提是,虽然低光图像提供关键的色彩内容,事件提供必要的边缘细节,但两种模式都可能被不同类型的噪声破坏,产生不同的噪声分布。 因此,直接融合两种模态的特征(如[18]中常见的做法)也可能会加剧两个输入不同区域的噪声,如图5(g)中的蓝色框区域所示。

为了解决这些问题,我们的关键思想是整体融合事件和图像特征,然后在信噪比(SNR)先验信息的指导下以选择性区域方式提取纹理和结构信息。 为了确保针对区域照明和噪声变化的鲁棒性,我们进一步引入了信噪比引导的特征选择,以从高信噪比区域提取图像特征,并从低信噪比区域提取事件特征。 这保留了区域纹理和结构信息(第 4.2 节)。 然后,我们设计了一个基于注意力的整体融合分支,从事件和图像中粗略地提取整体结构和纹理信息(第 4.3 节)。 最后,采用具有通道注意的融合块将整体特征与图像和事件的区域特征融合。

我们通过将我们的真实数据集和 SDSD 数据集(基于帧的数据集)[39] 上的基于框架的方法(例如 [4])和事件引导的方法(例如 [25])与事件模拟器生成的事件进行比较来进行广泛的实验。 15]。 实验表明,我们的 EvLight 在极低光照条件下可以很好地增强各种曝光不足的图像,如图 1 所示。

在这里插入图片描述

图 1.我们的数据集的一个具有挑战性的示例,其中包含极弱光图像 (a) 和稀疏事件 (b)。 与基于 SOTA 框架的方法 Retinexformer © 的结果相比,我们的 EvLight (d) 不仅恢复了结构细节(例如天花板上的管道),而且避免了明亮处的过度增强和饱和 区域(例如灯光)。

在这里插入图片描述

图 2.(a) 通过在机械臂上安装 DAVIS 346 事件相机并以相同的轨迹接收记录序列来收集空间对齐的图像事件数据集的图示。 (b) 我们的匹配调整策略概述。 © 我们的数据集示例,其中包含在低光(使用 ND8 滤镜)和正常光条件下捕获的图像和配对事件。


精读

过去基于帧的相机

  • 存在不少增强对比度、去除噪声到校正颜色方法
  • 但当基于帧的相机提供的视觉细节(例如边缘)不太明显时,这些方法经常会遇到曝光不平衡和颜色失真的问题
    在这里插入图片描述

SDE数据集提出的背景

  • 很少有人将基于帧的相机和事件相机相结合来解决 LIE 任务 。 一个障碍是极其缺乏具有时空对齐图像和事件的大规模现实世界数据集。

  • 很多人有做不需要配对进行增强的,也有人利用合成数据集进行增强,但这些方法在现实世界的弱光场景中的应用能力较差。

  • LIE数据集[18]是一个真实世界的事件图像数据集,具有配对的低光/正常光序列,通过简单地调整室内灯光(人造光波动)和室外曝光时间,同时保持固定的相机位置来获得。

  • 因此,LIE数据集与之前基于帧的数据集 SMID [6] 类似,该数据集仅局限于静态场景。

SDE数据集遇到的难题:固有的困难源于确保成对的低光和正常光序列之间精确的空间和时间对齐所涉及的复杂性,特别是对于非线性运动的动态场景。

本文提出SDE数据集解决方案

  • 为了实现这一目标,空间上我们设计了一个机器人对准系统来保证空间对准,误差幅度仅为 0.03 毫米。我们的系统包含具有复杂轨迹的非线性运动。 这显着增强了现实场景数据集的多样性。
  • 时间上我们提出了一种新颖的匹配对齐策略来减少时间差异。

Evlight

遇到的的难题:

虽然低光图像提供关键的色彩内容,事件提供必要的边缘细节,但两种模式都可能被不同类型的噪声破坏,产生不同的噪声分布。 因此,直接融合两种模态的特征(如[18]中常见的做法)也可能会加剧两个输入不同区域的噪声

本文提出解决方案

提出了一种事件引导的 LIE 方法——Evlight

方法设计

我们的关键思想是整体融合事件和图像特征

  • 然后在信噪比(SNR)先验信息的指导下以选择性区域方式提取纹理和结构信息。为了确保针对区域照明和噪声变化的鲁棒性,我们进一步引入了信噪比引导的特征选择,以从高信噪比区域提取图像特征,并从低信噪比区域提取事件特征。这保留了区域纹理和结构信息.
  • 我们设计了一个基于注意力的整体融合分支,从事件和图像中粗略地提取整体结构和纹理信息(第 4.3 节)。
  • 最后,采用具有通道注意的融合块将整体特征与图像和事件的区域特征融合。

2. Related Work—相关工作

翻译

**LIE Datasets:**基于学习的方法的性能很大程度上依赖于训练数据集的质量。对于图像 [3, 5, 7] 或视频 [6, 10, 17, 22, 39, 40]。 例如,SDSD [39]通过将相机安装在机电系统上,从场景中获取不同光照条件下的一对视频。 在本文中,我们主要关注事件图像数据集。 表 1 中显示了用于低光增强的现有图像事件数据集的摘要。 1. EvLowLight [24] 仅包括低光图像/事件,没有相应的正常光图像/事件作为基本事实,而 DVS-Dark [52] 提供不成对的低光/正常光图像/事件。 LIE [18] 是一个真实世界的图像事件数据集,通过调整静态场景中相机的进光量来捕获,其中事件是由光线变化(室内)和曝光时间(室外)触发的。 相比之下,我们使用机器人对齐系统,考虑非线性运动,提供了一个包含超过 30K 空间和时间对齐的图像事件对(室内和室外)的真实世界数据集。

**Frame-based LIE:**基于帧的低光图像增强方法可以分为基于非学习的方法[1,11,12,28,46]和基于学习的方法[4,7,9,38,41,44,45] 、48、49、53、54]。 基于非学习的方法通常依赖于手工特征,例如直方图均衡化 [1, 28] 和 Retinex 理论 [11, 12, 46]。 尽管如此,这些方法导致缺乏适应性和效率[44]。 随着深度学习的发展,出现了越来越多的基于学习的方法,这些方法可以分为基于Retinex的方法[4,7,9,44,53,54]和非基于Retinex的方法[38, 41、45、48、49]。 特别是,SNR-Aware [48] 共同利用信噪比感知变换器和卷积模型来通过空间变化操作动态增强像素。 然而,由于低光图像中的隐藏边缘,这些基于帧的方法通常会导致模糊的结果和低结构相似性 (SSIM)。

**Event-based LIE:**事件摄像机即使在弱光场景下也能享受 HDR 并提供丰富的边缘信息 [55]。 张等人。 [52]专注于从低光事件中重建灰度图像,但在仅使用事件中的亮度变化来保留原始细节方面面临挑战。 最近,一些研究人员利用事件作为低光图像增强 [18, 19]、低光视频增强 [24, 25] 和低光图像去模糊 [56] 的指导。 ELIE [18]利用残差融合模块来混合事件和图像以实现低光增强。 刘等人。 [25]通过合成来自相邻图像的事件以获得强度和运动信息来解决现有低光视频增强方法中的伪影,并提出一种融合变换模块来将这些事件特征与图像特征融合。 EvLowLight [24]通过联合估计事件和帧的运动来建立时间一致性,同时确保具有不同空间分辨率的事件和帧之间的空间一致性。 然而,这些方法直接融合从事件和图像中提取的特征,没有考虑事件和图像中不同局部区域的噪声差异。


精读

LIE Datasets

**(1)SDSD:**从场景中获取不同光照条件下的一对视频

(2)EvLowLight: 没有相应的正常光图像/事件作为基本事实

**(3) DVS-Dark:**提供不成对的低光/正常光图像/事件

**(4) LIE :**静态场景事件是由光线变化(室内)和曝光时间(室外)触发

Frame-based LIE

**(1)基于非学习的方法:**从场景中获取不同光照条件下的一对视频

  • 通常依赖于手工特征,致缺乏适应性和效率。

(2)基于学习的方法:

  • 基于Retinex的方法

  • 非基于Retinex的方法: SNR-Aware 共同利用信噪比感知变换器和卷积模型来通过空间变化操作动态增强像素。

方法局限性:

由于低光图像中的隐藏边缘,这些基于帧的方法通常会导致模糊的结果和低结构相似性 (SSIM)。

Event-based LIE

**优点:**事件摄像机即使在弱光场景下也能享受 HDR 并提供丰富的边缘信息

  • ELIE :利用残差融合模块来混合事件和图像以实现低光增强
  • [25]通过合成来自相邻图像的事件以获得强度和运动信息来解决现有低光视频增强方法中的伪影,并提出一种融合变换模块来将这些事件特征与图像特征融合。
  • EvLowLight :通过联合估计事件和帧的运动来建立时间一致性,同时确保具有不同空间分辨率的事件和帧之间的空间一致性。

方法局限性:

这些方法直接融合从事件和图像中提取的特征,没有考虑事件和图像中不同局部区域的噪声差异。


3. Our SDE Dataset

翻译

从现实世界场景中捕获成对的动态序列是一项艰巨的挑战,这主要是由于在不同的照明条件下确保空间和时间对齐所涉及的复杂性。 第一种方法采用立体摄像系统同时记录相同的场景,使用非线性变换和裁剪(如 DPED [16])。 然而,它在弱光下难以进行 SIFT 关键点计算和匹配 [26]。 这阻碍了重叠视频片段的识别。 第二条方法 [17, 22] 构建了一个包含分束器的光学系统,允许两个相机捕获统一的视图。 尽管如此,如[22,24,31]中所述,实现此类系统的完美对齐仍然具有挑战性,导致空间错位。 第三种方法,例如 SDSD [39] 提出了一种机电系统,将相机安装在电动滑轨上,以分别捕获低光/正常光视频(两轮)。 然而,SDSD受到电动滑轨有限直线运动的限制。 不同的是,我们设计了一个机器人对准系统,配备事件相机,可以在弱光和正常光条件下捕获配对的 RGB 图像和事件。 我们的系统具有复杂轨迹的非线性运动。

  1. 空间对齐的数据捕获。 为了确保配对序列的空间对齐,配备了机械臂(Universal UR5),其重复误差最小为 0.03 毫米,可捕获遵循相同轨迹的序列。 我们为机器人系统设置了预定义的轨迹和具有固定参数的 DAVIS 346 事件相机,例如 接触时间。 首先,在正常照明条件下获取配对图像和事件序列。 随后,ND8滤镜应用于相机镜头,这有助于捕捉低光序列,同时保持一致的相机参数,例如曝光时间和帧间隔。
  2. 低光/正常光序列的时间对齐。 SDSD [39] 数据集的对齐涉及根据视频中描述的运动状态手动选择每个配对视频的初始帧和最终帧,从而导致不可避免的偏差。 为了缓解这个问题,通过根据预定义轨迹的开始和结束时间戳修剪序列来执行初始时间对齐。 然而,即使曝光时间和帧间隔设置一致,轨迹的开始时间戳与每个序列中轨迹启动后捕获的第一帧时间戳之间也存在可变的时间间隔。 该偏差会导致每个低光图像与其正常光图像对之间的未对准,特别是在复杂的运动路径中。 为了实现进一步的对齐,我们引入了初始时间对齐,通过根据预定义轨迹的开始和结束时间戳修剪序列来执行。 然而,即使曝光时间和帧间隔设置一致,轨迹的开始时间戳与每个序列中轨迹启动后捕获的第一帧时间戳之间也存在可变的时间间隔。 该偏差会导致每个低光图像与其正常光图像对之间的未对准,特别是在复杂的运动路径中。 为了实现进一步的对齐,我们引入了匹配对齐策略,其中多次捕获每个场景的序列,以最大程度地最小化对齐误差,如图2(b)所示。 实际上,我们在每个场景中捕获 6 个配对的事件图像序列——三个在弱光条件下,三个在正常光条件下。 这 6 个序列被修剪为预定义轨迹的开始和结束时间戳,确保所有视频的内容一致。 随后,计算轨迹的开始时间戳和每个修剪序列的初始帧时间戳之间的时间间隔。 如图2(b)所示,6个序列的时间间隔(蓝色区域)不同,我们将弱光序列与正常光序列进行匹配,其时间间隔的绝对误差最小; 因此,我们可以减少随机时间间隔造成的错位。 通过匹配对齐策略,我们实现了显着的精度,90% 的数据集的时间对齐误差低于 0.01 秒,室内和室外数据集的最大误差分别为 0.013 秒和 0.027 秒。

精读

SDE 数据集: 如何解决在不同的照明条件下确保空间和时间对齐所涉及的复杂性


4. The Proposed EvLight Framework

翻译

基于我们的 SDE 数据集,我们进一步提出了一种新颖的事件引导 LIE 框架,称为 EvLight,如图3所示.

在这里插入图片描述

图 3.我们的框架概述。

我们的目标是有选择地融合图像和事件的特征,以实现事件引导 LIE 的稳健性能。 EvLight 将低光图像 I 和具有 N 个事件的配对事件流 在这里插入图片描述
作为输入,并输出增强图像 Ien。 我们的流程由三个部分组成:1)预处理,2)SNR 引导的区域特征选择,3)整体区域融合分支。 事件表示。 给定事件流{ek}N k=1,我们按照[30]通过将每个事件的极性分配给两个最接近的体素来获得事件体素网格E。 所有实验中 bin 大小均设置为 32。

4.1. Preprocessing

初始点亮: 正如最近基于帧的 LIE 方法 [4,41,49] 所证明的那样,粗略增强低光图像有利于图像恢复过程并进一步提高性能。 为简单起见,我们遵循 Retinexformer [4] 进行初始增强。 如图3所示,我们估计初始照明图像Ilu为:在这里插入图片描述

其中 Iprior = maxc(I) 表示照明先验图,maxc 表示跨通道计算每个像素最大值的操作。 F 输出估计的照明图 L,然后通过逐像素点积将其应用于输入图像 I。

信噪比图: 遵循之前的方法[2,8,48],我们基于初始光照图像 Ilu 估计 SNR 图,并使其成为第 2 节中 SNR 引导的区域特征选择的有效先验。 4.2. 给定初始点亮图像 Ilu,我们首先将其转换为灰度一 Ig,即 Ig ∈ RH×W,然后计算 SNR 图在这里插入图片描述,其中 ~Ig 是 去噪对应部分。 实际上,与 SNR-Net [48] 类似,去噪对应部分是使用均值滤波器计算的。

[48] 徐晓刚,王瑞兴,傅志荣,贾佳雅。 信噪比感知的低光图像增强。 IEEE/CVF 计算机视觉和模式识别会议论文集,第 17714–17724 页,2022 年。3、4、5、6、7

特征提取: 最初使用 conv3 × 3 提取发光图像 Ilu 的图像特征 Fimg 和事件体素网格 E 的事件特征 Fev。

4.2 SNR-guided Regional Feature Selection–SNR引导的区域特征选择

在本节中,我们的目标是有选择地从图像或事件中提取区域特征。 我们设计了图像区域特征选择(IRFS)块来选择具有较高SNR值的图像特征,从而获得受噪声影响较小的图像区域特征。 然而,SNR 图不仅将低 SNR 值分配给高噪声区域,而且还分配给边缘丰富的区域。 因此,仅从具有高 SNR 值的区域中提取特征可能会无意中抑制边缘丰富的区域。 为了解决这个问题,我们引入了事件区域特征选择(ERFS)块,用于增强能见度差和高噪声区域的边缘。

在这里插入图片描述

如图3所示,该模块的输入包括图像特征Fimg、事件特征Fev和SNR图Msnr。 首先,图像特征 Fimg 和事件特征 Fev 使用步长为 2 的 conv4×4 层进行下采样,SNR 图 Msnr 进行内核大小为 2 的平均池化。这些下采样操作在中表示为“Down Sample” 图 3 我们得到不同尺度的图像特征 在这里插入图片描述

,事件特征在这里插入图片描述 和 SNR 图在这里插入图片描述其中 i = 0, 1, 2。然后,在 IRFS 块和 ERFS 块中的 SNR 图 Mi snr 的指导下选择图像特征 Fi img 和事件特征 Fi ev。 然后,这两个块分别输出选定的图像特征 Fi sel−img 和事件特征 Fi sel−ev 。 我们现在描述这两个块的细节。

在这里插入图片描述

图 4. SNR 引导的区域特征选择和整体区域融合分支解码器中每个块的详细信息。

图像区域特征选择 (IRFS) 模块: 如图4(a)所示,对于图像特征Fi img,我们最初通过两个残差块[13]对其进行处理,以提取区域信息并产生输出ˆFi img。 每个块包含两个 conv3×3 层和一个高效的通道关注层 [37]。 然后,SNR 图 Mi snr 沿通道扩展,以与图像特征的通道尺寸对齐。 然后,我们对其进行归一化,使其在[0, 1]范围内。 然后,我们在 SNR 图上应用预定义的阈值以获得 ^Mi snr。 为了强调具有较高 SNR 值的区域并获得所选图像特征 Fi sel−img,我们在扩展 SNR 图和图像特征 ˆFi img 之间执行逐元素乘法 ⊙,公式为:在这里插入图片描述

事件区域特征选择(ERFS)块。: 初始点亮图像中的边缘丰富区域,尤其是曝光不足的区域,表现出较低的 SNR 值。 此外,我们观察到高信噪比区域(例如,照明良好的平滑平面)中的事件主要是泄漏噪声和散粒噪声事件。 因此,我们设计了 ERFS 块,利用 SNR 图的逆来选择性地增强低能见度、高噪声区域的边缘,并抑制充分照明区域中的噪声事件。 该块中的初始处理遵循与 IRFS 块类似的架构,以 Fi ev 作为输入,ˆFi ev 作为输出。 给定 SNR 图 ˆMi snr,我们通过 1 Mˆ i snr 获得 SNR 图 ˆMi snr 的储备。 为了获得选定的事件区域特征 Fi sel−ev,对 SNR 图的储备和事件特征进行逐元素乘积 ⊙,公式为:在这里插入图片描述

4.3 Holistic-Regional Fusion Branch–整体与区域融合分支

在本节中,我们的目标是从事件特征和图像特征中提取整体特征,从而在它们之间建立远程通道依赖关系。 此外,在整体区域特征融合过程中,通过选择的图像区域和事件区域特征来增强整体特征。

在这里插入图片描述

图 3 © 描述了我们的整体区域融合分支,它采用了带有跳跃连接的类似 UNet 的架构 [32]。 该分支将预处理阶段(第 4.1 节)中的图像 Fimg 和事件 Fev 的串联特征作为输入,将增强图像 Ien 作为输出。 在契约路径中,有2层,每层的输出为其中 i = −2, −1。 在第 iW 层中,整体特征 Fi ho 首先经历整体特征提取(HFE)块。 然后通过strided conv4×4下采样操作,获得整体特征Fi+1 ho。 在扩展路径中,每层的输出为在这里插入图片描述
,其中 i = 0, 1, 2。在第 i 层中,整体特征 Fi ho 首先经历整体特征提取(HFE)块。 然后通过strided conv4×4下采样操作,获得整体特征Fi+1 ho。在扩展路径中,每层的输出为 Fi ho,其中 i = 0, 1, 2。如图 4 所示,整体特征 Fi−1 ho 使用 HFE 块进行处理,并产生 ˆFi−1 ho。 然后,使用跨步 deconv2 × 2 对整体特征 ˆFi−1 ho 进行上采样,并将其与整体区域融合(HRF)块中选定的区域图像 Fi sel−img 和事件特征 Fi sel−ev 融合

在这里插入图片描述

整体特征提取 (HFE) 模块: 如图4(c)所示,整体特征提取主要由多头自注意力模块和前馈网络组成。 给定一个整体特征 Fi−1 ho ,该特征可以处理为:在这里插入图片描述
其中 ˆFi−1 mid 是中间输出,LN 是层归一化,FFN 表示前馈网络,Attention 表示通道自注意力,类似于[51]中采用的多头注意力机制。

整体区域融合(HRF)块: 该块首先连接所选图像特征 Fi sel−img、所选事件特征 Fi sel−ev 和上采样整体特征 ˆFi−1 ho 。 然后,这个连接的特征 Fi cat 通过 3×3 卷积层来生成空间注意力图。 接下来,注意力图和级联特征之间进行逐元素相乘,可表示为:在这里插入图片描述
其中Fi是图4(d)所示的卷积运算。 σ 和 ⊙ 分别表示 Sigmoid 函数和元素产生式。

优化: 用于训练的损失函数 L 表示为:在这里插入图片描述
,其中 λ 是超参数 ϵ 设置为 10−4,Ien 和 Igt 表示增强图像和地面实况图像,Φ 表示使用 Alex 网络[21]进行特征提取。


精读

预处理:

  1. 初始点亮:遵循 Retinexformer [4] 进行初始增强

  2. 信噪比图:遵循之前的方法《信噪比感知的低光图像增强》,我们基于初始光照图像 Ilu 估计 SNR 图

  3. 最初使用 conv3 × 3 提取发光图像 Ilu 的图像特征 Fimg 和事件体素网格 E 的事件特征 Fev。

SNR引导的区域特征选择:

  1. “Down Sample”: 图像特征 Fimg 和事件特征 Fev 使用步长为 2 的 conv4×4 层进行下采样,SNR 图 Msnr 进行内核大小为 2 的平均池化。

  2. **(IRFS) 模块:**选择具有较高SNR值的图像特征,从而获得受噪声影响较小的图像区域特征。 然而,SNR 图不仅将低 SNR 值分配给高噪声区域,而且还分配给边缘丰富的区域。

  3. (HRF) 模块:因此,仅从具有高 SNR 值的区域中提取特征可能会无意中抑制边缘丰富的区域。 为了解决这个问题,我们引入了事件区域特征选择(ERFS)块,用于增强能见度差和高噪声区域的边缘。

整体与区域融合分支

采用了带有跳跃连接的类似 UNet 的架构

HFE模块: 整体特征提取主要由多头自注意力模块和前馈网络组成。

HFE模块: 在这里插入图片描述


5 .Experiments

翻译

**实验详情:**我们在所有实验中都使用了Adam优化器[20],对于SDE和SDSD数据集,学习率分别为1e−4和2e − 4。我们的框架使用NVIDIA A30 GPU训练了80个epoch,批量大小为8。我们应用随机裁剪、水平翻转和旋转来增强数据。裁剪尺寸为256 × 256,旋转角度包括90、180和270度

**评估指标:评估方法:我们使用峰值信噪比(PSNR)[14]和SSIM [42]进行评估。在先前方法[45,53]中对预测结果的整体亮度进行微调之后,我们引入PSNR 作为评估光拟合之外的图像恢复有效性的度量。PSNR 的计算公式为:

在这里插入图片描述

其中,Ien、Igt、Gray、Mean和PSNR分别表示增强图像、地面实况图像、将RGB图像转换为灰度图像的操作、获得平均值的操作和计算PSNR值的操作。

数据集:

**(1)**SED数据集包含91个图像+事件配对序列(43个室内序列和48个室外序列),这些序列由DAVIS 346事件相机[33]捕获,该相机以346 × 260的分辨率输出RGB图像和事件。对于所有收集的序列,选择76个序列用于训练,15个序列用于测试。

**(2)**SDSD数据集[39]提供了成对的低光/正常光视频,分辨率为1920 × 1080,包含静态和动态版本。我们选择动态版本来模拟事件,并采用与SDSD [39]相同的数据集分割方案:125个配对序列用于训练,25个配对序列用于测试。我们首先将原始视频下采样到与DAVIS 346事件相机相同的分辨率(346 × 260)。然后,我们将调整大小的图像输入到事件模拟器v2 e [15],以在默认的噪声模型下合成带有噪声的事件流。

5.1.比较和评价

我们将我们的方法与具有三种不同设置的最近方法进行比较:

(I)以事件作为输入的实验,包括E2 VID + [34]。

(II)以RGB图像作为输入的实验,包括SNR-Net [48],Uformer [43],LLFlow-L-SKF [45]和Retinexformer [4]。

(III)使用RGB图像和配对事件作为输入的实验,包括ELIE [18],eSL-Net [36]和Liu等人。[25]。我们根据论文中的描述复制了ELIE [18]和Liu等人[25],而其他人则使用发布的代码重新训练。我们通过输入用事件相机捕获的事件或从事件模拟器生成的事件来替换[25]中的事件合成模块[15]。

在这里插入图片描述

*表2.我们的SDE数据集和SDSD [39]数据集的比较。最高结果以粗体突出显示,而第二高结果以下划线突出显示。由于E2VID+ [34]只能重建灰度图像,因此其度量是以灰度计算的。*

在这里插入图片描述

与我们的CNAS数据集的比较:表2中的定量结果。展示了我们的方法在数据集上的上级性能,比基线的性能更好,对于SDE-in和SDE-out分别提高了0.65 dB和0.29 dB。为了评估光拟合之外的图像恢复效果,我们计算了PSNR*,我们的方法也明显优于SOTA技术,SDEin和SDE-out的PSNR* 分别高出0.93 dB和1.21 dB。这标志着我们的低光图像增强方法的一个重要验证。定性地,如图5和图6分别针对室内和室外场景所描绘的,我们的方法有效地重建暗区域中的清晰边缘(例如,图5和图6中的红框区域),超过了Retinexformer [4]等基于帧的方法和Liu等人[25]等事件引导方法。此外,我们的方法在具有挑战性的区域(例如,图6中的壁)比LLFlow-L-SKF [45]和ELIE [18]以及Retinexformer [4],强调了我们方法的鲁棒性。

**SDSD数据集的比较:为了评估我们方法的泛化能力,我们对SDSD数据集进行了比较[39],定量结果详见表1。2.我们的方法在PSNR、PSNR 和SSIM方面显著优于基线,SDSD-in领先0.94 dB,SDSD-out领先0.59 dB。虽然ELIE和Liu等人。[25]在SDSD-in数据集中优于基于帧的方法,但它们在SDSD-out数据集中存在过拟合,这由PSNR和PSNR 之间的显著差异证明。如图7所示,我们的方法有效地将曝光不足的图像恢复为更详细的结构,如红框区域中突出显示的。此外,ELIE [18]往往会产生颜色失真,如图7(d)的蓝框区域所示。

5.2.消融研究和分析

我们在SDE-in数据集上进行消融研究,以评估我们的方法的每个模块的有效性。基本实现,没有SNR引导的区域特征选择,如第4.2,称为基本模型。

事件的影响:为了揭示事件的影响,我们在基础模型上进行了实验。不包括事件的变体获得21.35dB的PSNR和0.6985的SSIM,而添加事件导致PSNR中的0.23dB的改善和SSIM中的0.002的改善。然而,基础模型无法充分探索SSIM有限改善所显示的事件潜力。

在这里插入图片描述

**SNR引导的区域特征选择的影响:**为了验证它,我们在表10中进行了消融研究。3.我们用全1矩阵替换SNR图,并去除整个选择模块(基础模型)。与基本模型(第1行)相比,使用全1矩阵的区域特征选择(第2行)和SNR引导的区域特征选择(第3行)分别产生了0.28dB和0.86dB的PSNR增加,这表明了区域特征和SNR图的必要性。尽管利用全1矩阵的区域特征选择和基本模型都具有颜色失真(例如,图8(a)、(B)、(B)中的红框比(a)具有更好的结构细节。

**IRFS和ERFS的影响:**为了验证它们,我们在表1中进行了消融研究。4.与基本模型(第1行)相比,图像区域特征选择(IRFS,第2行)、事件区域特征选择(ERFS,第3行)以及它们的组合(第4行)分别产生了0.34 dB、0.60 dB和0.86 dB的PSNR增加,证明了IRFS和ERFS块的必要性。图8中,IRFS(d)或ERFS(c)可以减少出现在基本模型(a)中的颜色失真。使用IRFS和ERFS模块,我们的结果可提供最佳的视觉质量(例如:图8中红框和蓝框)。

**概括能力:**为了评估我们的EvLight的泛化能力,我们使用在我们的SDE数据集上训练的模型在CED [33]和MVSEC [57]上进行了实验。此外,我们使用在SDSD数据集[39]的合成事件上训练的模型来评估我们的SDSD数据集的真实的事件的泛化能力。详细的目视检查结果见补充材料。


精读

  1. 设置了实验参数,和评价指标(PSNR)和SSIM、PSNR*

    在这里插入图片描述

    介绍了数据集SED、SDSD

2.对比实验中,单事件、单图像、双模态以及两个数据集分别做了实验

3.消融实验中设计了对4个模块交叉检验


6 .结论

本文提出了一个大规模的真实世界事件图像数据集,称为SDE,通过一个非线性机器人路径进行高精度的空间和时间对齐,包括低照度和正常照度条件。基于真实数据集,设计了一个基于事件引导的弱光图像增强框架EvLight,该框架以全局和区域化的方式自适应地融合事件和图像特征,从而实现了鲁棒性和上级性。局限性和未来工作:由于DAVIS346事件摄像机的固有限制,SDE数据集中的RGB图像可能会出现部分色差和莫尔条纹。未来,我们将改进硬件系统,实现机器人和事件摄像机的同步触发,从而大幅降低与重复采集相关的人力成本。谢谢。本论文得到了国家自然科学基金(NSF)NSFC22FYT45和广州市校企联合基金SL2022A03J01278的资助。

3.消融实验中设计了对4个模块交叉检验


6 .结论

本文提出了一个大规模的真实世界事件图像数据集,称为SDE,通过一个非线性机器人路径进行高精度的空间和时间对齐,包括低照度和正常照度条件。基于真实数据集,设计了一个基于事件引导的弱光图像增强框架EvLight,该框架以全局和区域化的方式自适应地融合事件和图像特征,从而实现了鲁棒性和上级性。局限性和未来工作:由于DAVIS346事件摄像机的固有限制,SDE数据集中的RGB图像可能会出现部分色差和莫尔条纹。未来,我们将改进硬件系统,实现机器人和事件摄像机的同步触发,从而大幅降低与重复采集相关的人力成本。谢谢。本论文得到了国家自然科学基金(NSF)NSFC22FYT45和广州市校企联合基金SL2022A03J01278的资助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值