[论文阅读][CVPR2021]EventZoom: Learning to Denoise and Super Resolve Neuromorphic Events

优秀的黑羊

于 2022-01-18 11:11:43 发布

阅读量900

点赞数 1

分类专栏：事件相机文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_45984611/article/details/122554339

版权

事件相机专栏收录该内容

1 篇文章 0 订阅

订阅专栏

说明：我自己的注释用绿字

主要内容

事件到事件（E）的去噪（D）+超分辨率（SR），EDSR
提供了一个多分辨率数据集（低成本，很有创意）

网络结构——3D U-net

U-net结构，来源：https://lmb.informatik.uni-freiburg.de/people/ronneber/u-net/

U-net

EventZoom

EventZoom网络结构

2D 网络是h*w*c，3D是h*w*t*c，多了个时间维度而已
输入：10ms内事件直接累加成一帧，取连续160ms做成16帧，叠起来就是一个样本（注意是4维的，h*w*16*1）
输出： h*w*16*1，同样是16帧，每帧分别拆成离散的事件就行了，具体的时间戳（因为输出只有16个时间范围）随机or等间隔分配，效果差不多（其实测试的几个下游任务本身对时间戳的依赖性就不强）
E2VID：事件转图像
FSRCNN：图像超分辨率
选这两个是因为速度快，其他的也可以
如果仅去噪，则去掉跳跃连接部分的反卷积层和FSRCNN（让输入输出尺寸一样）

数据集

在这里插入图片描述
显示器：1920*1080，144Hz
事件相机DAVIS346：346*260
NFS数据集：1280*720，120fps
把NFS的视频在显示器的6个区域同步播放（用双三次插值缩小，避免掉帧限制在90fps），再用事件相机拍
这样就得到了低成本的多分辨率数据集，不过分辨率最低的那个太烂了用不了
所以最后的低分辨率数据（LR）：111*62
高分辨率数据（SR）：222*124
去噪网络：输入输出都是LR，即同一数据
EDSR网络：输入LR，输出SR
实际上采集到的数据肯定是有噪声的，但研究表明，神经网络学习噪声到噪声的甚至可能比噪声到干净数据的效果更好（Noise2noise: Learning image restoration without clean data）
（一种解释是，数据集足够大的情况下，噪声数据的期望=无噪声数据，不过感觉还是玄学。。。）