EventSR(CVPR2020):From Asynchronous Events to Image Reconstruction, Restoration, and SR

EventSR: From Asynchronous Events to Image Reconstruction, Restoration, and Super-Resolution via End-to-End Adversarial Learning
视屏:https://www.youtube.com/watch?v=OShS%5C_MwHecs点击

1. Introduction

  事件相机具有非常高的动态范围[24]、无运动模糊和高时间分辨率等明显优势,已经证明,单独的事件相机足以执行高级任务,如目标检测[27]、跟踪[14]和SLAM[19]。此外,作为它的潜力,事件流可能包含完整的视觉信息,以重建高质量的强度图像和视频与HDR和无运动模糊。然而,由于叠加事件中的累积噪声和模糊(失焦)以及事件相机的低分辨率(LR),强度图像重建的最新技术[44,32,29,3]受到影响。有源像素传感器(APS)图像具有低动态范围、低LR和模糊相机以固定的帧率捕捉强度变化。这一独特的特性引发了一系列专门为事件相机开发的方法,。因此,重建的图像通常是LR和伪影。虽然[19,35]分别针对事件相机聚焦HR,即球形HR图像拼接和HR事件全景,但没有考虑像平面HR强度图像重建及其感知现实性。

  在这项工作中,我们努力回答这个问题,“是否有可能直接超分辨LR的事件流(lr到hr这个过程)来重建像平面高质量高分辨率(HR)强度的图像?”前面提到的重建HR强度图像的病态挑战。从纯事件流中重建、恢复(如去噪/去模糊)和超分辨强度图像的问题还没有得到令人信服的挖掘和证实。我们深入研究了用HDR和无运动模糊重建高质量SR强度图像的问题。

  对于传统相机图像,基于深度学习(DL)的方法使用LR和HR图像对在单图像超分辨率(SISR)上取得了显著的性能提高[36,23,45]。大多数研究假设下采样方法是可用的,LR图像是原始的。当涉及到事件相机,要么堆叠事件或APS图像是嘈杂和模糊的,和真实的HR图像是不可用的,更不用说退化模型。目前还不清楚这种深度学习方法是否适用于事件摄像机。

  受DL在图像翻译[54,43]、去噪/去噪[49,22]和SISR[47,52]等方面的发展以及最近在事件摄像机数据DL方面的一些成功[53,44]的启发,**我们研究了从LR事件流重构HR强度图像的无监督对抗学习问题。**所得结果证明了该方法的有效性。就我们所知,这是第一个通过超分辨LR事件流来重新构造HR强度图像的工作。

  提出的结构包括三个主要任务。首先,1)从LR事件流重构LR图像。然而,这些重建图像往往是噪声,模糊和不现实的。2)因此,我们然后从事件中恢复(去模糊/去噪)真实的LR强度图像。3)最后,我们将事件中恢复的LR图像SR出SR图像,如图1所示。我们的框架是一个端到端的学习方法,为了更有效的训练,我们提出了阶段到阶段的网络训练策略。后期相位的损耗被反向传播到早期相位的网络中。各种损失函数和详细的网络结构对最佳质量也很重要。使用事件摄像机模拟器[31]、事件摄像机数据集[28]和RGB SR数据集,我们构建了一个包含110K幅图像的开放数据集用于事件到SR图像重建[48,41]。EventSR结合和替代使用真实数据和模拟数据有效地提高了网络性能。使用模拟数据集[44]和真实数据集[28]的实验结果表明,EventSR获得的结果明显优于SOTAs[44, 3, 29]。
总之,我们的贡献:

  1. 第一个途径(方法):从考虑图像恢复的LR事件中重建图像平面的HR强度图像
  2. 一个开放数据集:训练EventSR实现基于事件的超分辨率,以及使用它进行高性能训练的技巧
  3. 提议的细节架构,损失函数和端到端学习策略,

Related Works

Events to intensity image reconstruction

  [8]和[18]在视觉表征的旋转中首次尝试从旋转事件摄像机中重建强度图像。随后[19]进一步研究了基于球面3D场景重构HR masaic图像,并估算了6自由度(6DoF)摄像机运动。Bardow等[3]提出通过变分能量函数同时估计光流和光强的变化。类似地,Munda等人[29]将图像重建看作是定义在由事件时间戳引起的流形上的能量最小化问题。与[29]相比,Scheerlinck et al.[37]提出在集成之前使用高通滤波器过滤事件。近年来,基于深度网络学习的方法在灰度图像和视频图像构建方面取得了很大进展。Wanget al.[44]提出使用GAN[15,4,43]重建强度图像,并实现了SOTA性能。相比之下,Rebecq等人利用周期性网络从事件中重构视频。他们还使用了一个事件传感器与VGA(640ˆ480像素)分辨率重建高分辨率视频,然而,问题本质上是不同于我们的工作。

Deep learning on event-based vision

  考虑亚像素分辨率,以创建全景跟踪与更高的空间分辨率的事件,然而,没有强度图像重建。Alonso等人[1]进一步使用了编码器-解码器结构进行事件分割。相比之下,Zhu等人[53]利用编解码器网络,通过无监督学习进行光流、深度和自我运动估计。此外,Cannici等人[7]对YOLO[33]进行了改进,用于基于事件的对象检测。[46]和[6]都使用cnn进行人体姿态估计和动作识别。同时,为了分析事件对准,Gallego等[12,11]提出了一些损失和优化函数,并进一步应用于运动补偿[39]、流量估计[53]等。

Deep learning on image restoration/enhancement

  图像恢复解决了不能令人满意的场景再现问题,目标是通过对降级版本进行去噪和去模糊处理,使图像在某种意义上更接近于描述它所代表的[34]场景。而图像增强的目的是对图像进行处理(如对比度改善、图像锐化、超分辨率),使其更适合于[2]的进一步处理或分析。近年来,CNN被广泛应用于图像的恢复和增强。开创性的工作包括用于图像去噪的[5]的多层感知和用于图像SR[9]的三层CNN。采用反卷积可以节省计算成本并加快推理速度[10,38]。 在[20,25]中设计了非常深的网络来提高SR精度。在[51]中包括了各种残差块之间的密集连接。 同样,在[26,22,47,52]中开发了基于CNN和GAN的图像去噪方法。

Proposed Methods

  我们的目标是从事件流 ε \varepsilon ε中重构 I S R I^{SR} ISR图像。为了向网络提供事件,我们考虑根据传入事件的数量合并事件,并将其嵌入到图像中,就像[44,53]中所做的那样。然后我们提出了一种新的无监督框架,该框架结合了事件到图像重建(第一阶段)、事件到图像恢复(第二阶段)和事件到图像超分辨率(第三阶段),如图2所示。我们以循序渐进的方式来训练整个系统,而不是从头开始学习。这逐渐增加了最终重建SR图像的任务难度。在每个阶段,较早阶段的网络以端到端的方式更新。

Event embedding and datasets

   要使用CNNs处理事件流,我们需要像[44,53]那样将事件叠加到图像或固;定张量表示中。事件摄像机将强度变化解释为异步事件流。将事件 e e e表示为元组 ( u , t , p ) (u,t,p) (u,t,p),其中 u = ( x , y ) u=(x,y) u=(x,y)为像素坐标, t t t为事件的时间戳, p = ± 1 p=\pm1 p=±1为亮度变化标志的极性。自然的选择是将事件编码到暂时3D空间或体素网格中[53,44]。
在这里插入图片描述

  如图3所示。我们通过调整事件的锐度和对比度来减少事件模糊(失焦),就像[11]一样。第一个 N e N_e Ne事件合并到帧1中,下一个 N e N_e Ne合并到帧2中,然后重复到帧 n n n,创建一个有 n n n帧的堆栈。因此,包含 n N e nN_e nNe个事件的堆栈将作为EventSR的输入。在图3中, S 1 , S 2 , S 3 , S 4 S_1, S_2, S_3, S_4 S1,S2,S3,S4分别为包含不同数量事件 N e , 2 N e , 3 N e , 4 N e N_e, 2N_e, 3N_e, 4N_e Ne,2Ne,3Ne,4Ne的帧。事件嵌入方法保证了丰富的事件数据作为EventSR的输入,并允许我们自适应地调整每一帧中的 N e N_e Ne和一个堆栈中的 n n n

  这项工作的一个重要贡献是为训练EventSR构建了一个包括模拟场景和真实场景的数据集。正如在第1节中提到的,真实事件是嘈杂的,而且焦点不清晰。真实APS图像存在模糊、噪声和低动态范围等问题。因此,仅使用真实数据进行训练并不是最优的,在[44]中也是如此,不足以重建SR图像。我们提出了一个新的EventSR数据集,包括真实和模拟事件。如图3和表1所示,我们在训练的每个阶段结合使用和交替使用数据,并证明其效果良好。对于模拟数据,有三类用于不同的目的。首先,我们使用[44]提出的数据集进行图像重建强度的比较。其次,为了更好地处理由真实数据[44]引起的不适定问题,我们利用了来自事件摄像机数据集的参考彩色图像。……

Loss functions and training strategy of EventSR

在这里插入图片描述
  如图2所示,EventSR由事件到图像重建、事件到图像恢复和事件到图像超分辨三个阶段组成。EventSR在每个阶段包含三个网络结构G、F和D。
第一阶段
  为了得到SR图片,我们首先从事件流重建图像。我们的目的是学习一个映射 I L R = G r ( ε ) I^{LR}=G_r(\varepsilon) ILR=Gr(ε),由反馈映射 ε = F r ( I L R ) \varepsilon=F_r(I^{LR}) ε=Fr(ILR),和鉴别器 D r ( I L R ) D_r(I^{LR}) Dr(ILR)帮忙。输入为非配对训练事件 ε \varepsilon ε和LR的强度图像 I L R I^{LR} ILR
第二阶段
  由于重建的图像嘈杂,模糊且不真实,因此我们的目标是使用事件 ε \varepsilon ε和干净的LR图像 I c L R I^{cLR} IcLR来恢复(降噪/去模糊)图像。阶段2的目标是学习一个映射 I c L R = G d ( G r ( ε ) I^{cLR}=G_d(G_r(\varepsilon) IcLR=Gd(Gr(ε),一个事件反馈映射 ε = F d ( I c L R ) \varepsilon=F_d(I^{cLR}) ε=Fd(IcLR),以及鉴别器 D d ( I c L R ) D_d(I^{cLR}) Dd(IcLR)。输入是未配对的事件 ε \varepsilon ε和干净的图像 I c L R I^{cLR} IcLR
第三阶段
  然后,我们利用堆叠的事件 ε \varepsilon ε和真实的HR图像 I H R I^{HR} IHR从事件中重建SR图像。 问题在于学习映射 I c L R = G s ( G d ( G r ( ε ) ) I^{cLR}=G_s(G_d(G_r(\varepsilon)) IcLR=Gs(Gd(Gr(ε)),事件反馈映射 ε = F d ( I S R ) \varepsilon=F_d(I^{SR}) ε=Fd(ISR)和鉴别符 D d ( I S R ) D_d(I^{SR}) Dd(ISR)

损失函数和训练

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值