Events-to-Video: Bringing Modern Computer Vision to Event Cameras

Events-to-Video: Bringing Modern Computer Vision to Event Cameras

摘要

  1. 事件相机具有诸多优点,但其生成的数据流无法直接应用于传统视觉网络。
  2. 提出了一种能从事件数据进行视频重建的视觉策略,并应用于后续的视觉任务。

Introduction

  1. 这里列举了事件相机的优点,后续笔锋一转,就开始讲当前研究的困境。
  2. 困境是因为事件相机无法直接用传统网络,且之前的一些工作比如事件帧或者时间表面等图像都不是自然图像。这就引出了本文的工作内容:利用事件相机做自然图像重建,进而就能应用于现成的(off-the-shelf)视觉模型。
  3. 主要贡献:
    1)一个基于事件数据的递归神经网络。
    2)模拟事件生成并用于网络训练。
    3)可用于物体分类和视觉里程计等任务

Realted Work

  1. 因为本文做的事情是Event-To-Video,所以上来讲讲了一下static scene,抛砖引玉。这部分提到的 Asynchronous, photometric feature tracking using events and frames 比较有开创性,大致想法是用亮度增量图像来做跟踪,假设在很小的事件范围 Δ t \Delta t Δt内,亮度增量是由像素移动引起的,则增量公式和移动公式就能联系起来,frame的光流、梯度和事件积分就能等价了。
  2. 第二段开始谈时间到视频的建模,这里的topic主要是说做视频的话可以重建任意时刻的灰度帧。这里作者提到了一个事情,就是大多数基于时间的视频重建都是直接由事件积分得来的,这样的做法会不可避免的遭遇边缘模糊和鬼影等类型的噪声,这是事件相机激发阈值设置的问题,也就是说传统做法无法解决。
  3. 第三段就开始引出深度学习的做法,提到了一个06年的工作,利用字典学习从模拟的事件数据中得到局部的像素梯度,并利用泊松积分来重建强度图像。本文的改进是不再使用局部窗口,而是一次生成整张强度图像。

Video Reconstuction Approach

  1. 这里介绍了文章的整体思路,下面的流程图展示了模型的机制,这里的 K K K e N k e^k_N eNk都是固定值,可以提前设置。为了方便理解,所以设置成了 N = 7 N=7 N=7,实际上 N N N的取值远远要大于7,下文中给出的值是25000。
    流程图
  2. 训练模型需要大量的事件点和自然图像,但是现有的事件数据集无法提供众多的frame作为groundtruth,这里文章的想法是利用现有的事件生成器ESIM在原有的视觉数据集上进行部署
  3. 训练阶段使用UNet架构来进行图像重建,并利用递归网络来重复UNet的训练过程,这里的递归网络应该是LSTM。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值