Event-based vision

Event-based vision 论文阅读笔记

一下内容仅仅是记录自己的论文阅读。

一、Event-based Vision: A Survey

该论文属于综述性文章,对基于事件视觉做了全面的阐述。论文主要介绍了事件相机的原理及事件的处理等等。

1.事件相机的原理

异步的监察每个像素感知器的亮度变化情况,从而产生一个事件,多个像素的变化就产生了事件流。(DVS128、DAVIS240、ATIS等),输出事件格式为AER格式
在这里插入图片描述

2.事件相机与传统相机的区别

优点:
1)高时间分辨率:能够更快的捕捉亮度的变化,从而不会像传统相机那样产生运动模糊。
2)低延迟:APS相机成像都是按照固定的频率,一般1s/30fps,而事件相机的频率在1kHZ。
3)低能耗:由于事件相机是异步的对每个像素点进行监测,只有当强度变化超过预设阈值时才会产生事件流。故在无运动发生时将会一直处于待机状态。
4)高动态范围:事件相机能够在更大的动态范围内对运动做出响应(120dBvs60dB)。
5)低冗余:只输出动态变化信号,其背景等信息不会输出,故相比APS数据少了很多冗余数据。

在这里插入图片描述

3.事件的表示方式

1)一维:将事件作为一个一个单独的脉冲序列进行处理(event-by-event),常采用基于概率模型的处理方式或SNN(脉冲神经网络进行处理)。
2)二维:二维的表示方式也是最常用的方式,因为它可以与我们传统的方式就行模型的学习。常用的处理方式有:堆积成帧(按事件个数、按时间间隔)、Time-Surface(时间平面)、Grid(随机采样生成图)。
3)三维:直接将T作为三维轴,然后使用PointNet等直接进行特征学习。

应用

由于时间相机只是一种样本的获取方式,所以只要对事件进行合理的处理,其可以应用到APS所能应用的所有的应用中。例如:目标检测、目标跟踪、姿态估计等。

二、A Low Power, Fully Event-Based Gesture Recognition System

主要贡献

1.该文第一次实现了基于事件的端到端的姿态识别系统。
2.发布了真实场景下的用于姿态识别的数据集(DvsGesture)

三、Real-Time 6DOF Pose Relocalization for Event Cameras withStacked Spatial LSTM Networks

主要贡献

1.提出了SP-LSTM 网络结构,按时间片的方式来集成时间帧,采用CNN提取深度特征信息,后采用LSTM。(CNN采用VGG16,LSTM2个隐藏层,加入dropout=0.5防止过拟合)。
2.使用对象损失函数,L(I) =‖ˆp−p‖2+‖ˆq−q‖2 (ˆp、ˆq是从网络中预测的位置和方向在哪里)
3.提出了数据集划分的新方式,将一个时间的帧序列前70%作为训练集,后30%作为测试集。

code

https://github.com/nqanh/pose_relocalization(仅采用6-DOF数据集的事件作为输入)
源码是kears,利用pytorch复现了下(误差在0.1左右),效果不是很好(容易过拟合)。

下面两篇发散论文是这篇论文网络结构的启发:

①、Image-based localization using LSTMs for structured feature correlation

主要贡献

1.利用CNN + LSTM 对相机的位置进行回归预测。
在这里插入图片描述
CNN特征提取采用的是GoogleNet,直接将2048特征作为LSTM的输入,发现效果不是太理想,然后Reshape成(32*64),已上下左右四种切片方式输入到四个不同的LSTM中,然后将四个输出连接在一起送入全连接层进行回归预测。
2.使用空间损失函数,在这里插入图片描述(ˆp、ˆq是从网络中预测的位置和方向在哪里)
3.与传统的SIFT方法进行对比,提出了6DOF的indoor和outdoor数据集。

四、Focus Is All You Need: Loss Functions For Event-based Vision

主要贡献

分析介绍了各种损失函数

五、HOTS: A Hierarchy of Event-BasedTime-Surfaces for Pattern Recognition

主要贡献

介绍了一种全新的事件处理方式,TS(Time-Surface)。

Time-Surface原理


在这里插入图片描述
简言之,就是对时空信息进行编码,就是在固定的事件领域内每个像素只记录一个事件。当有新的事件到达时,会利用一个衰减核函数对其空间领域内作比较,从而产生一个类似权重值的东西来记录当前到达的事件(包含两部分,正负极性事件分开)。

HATS: Histograms of Averaged Time Surfaces for RobustEvent-based Object Classification

该论文是基于TS思想做出的改进。

主要贡献

1.改进了TS算法,由于原始的处理方法,对噪声事件没有做太多的处理,这就导致了算法对噪声非常的敏感,因此便提出了Local Memory Time Surface(他存储记忆了之前的事件,考虑时空窗口中所有过去事件的贡献,这样,考虑到计算的嘈杂事件的比率较小,结果更好地描述了事件基础流的真实动态。),然后通过对邻域中所有事件的时间面进行空间平均,可以进一步对时间面进行正则化。
2.提出了真实场景的二分类数据集N-CARS

六、 EV-FlowNet: Self-Supervised Optical FlowEstimation for Event-based Cameras

主要贡献

将事件表示为四个通道的img frame。前两个通道为像素的正负事件的计数(heatmap),后两个通道为像素的时间信息,弥补了缺失时间特征信息。

七、EV-Gait: Event-based Robust Gait Recognition using Dynamic Vision Sensors

主要贡献

1.介绍了一种全新的噪声抑制方法。
2.与其他各种先前提出的噪声处理方法做出了对比,其效果明显优于之前的工作。
3.提出了一个用于分类的数据集DVS128-Gait.

噪声抑制原理

基本原理就是根据运动的属性所引出,由于运动的非独立性(假如该点为运动点,那么该点附近的点也应该与它具有相同的运动属性(运动面)),基于这个假设,作者提出了采用最小二乘法的方式来拟合运动平面,从而判断该点是否为噪声点。
假设具有同一运动事件的运动属性有如下运动平面:
在这里插入图片描述
然后采用最小二乘法的方法,对运动平面的参数进行拟合(a,b,c,d)。
在这里插入图片描述
拟合空间领域为(3,3),时间领域为(-1,1)。假设经过拟合后,平面存在,那么就有唯一的(a,b,c,d)。使得:
在这里插入图片描述
从而就可以判断该点在,x,y 方向上的运动。如果0<|v|< Vmax,那么该点就为事件事件,否则为噪声事件直接丢弃。

八、Space-time Event Clouds for Gesture Recognition: from RGB Cameras to EventCameras

该论文提出了使用3D表示的方式处理事件流。利用PointNet来进行DvsGesture数据集的分类。

主要贡献

1.将事件表示为(x,y,t)三维点云模型,利用PointNet进行分类。
2.分别对采样事件(0.25,0.5,1.0)s 做出了实验对比(再从固定时间帧中随机抽取部分事件进行训练),将acc提到97.08%。

九、Dynamic Graph CNN for Event-Camera BasedGesture Recognition

该论文提出了使用3D表示的方式处理事件流。利用DGCNN 来进行DvsGesture和DHP19数据集的分类。

主要贡献

1.为了解决PointNet和PointNet++只能针对每个点进行特征提取,从而失去了部分空间信息的缺陷,提出了EdgeConv的方式提取特征,从而提出了DGCNN 。
2.在DvsGesture和DHP19数据集做了对比实验,acc分别为(98.56和95.94)。

十、Event-based Gesture Recognition with Dynamic Background Suppression using Smartphone Computational Capabilities

主要贡献

1.提出了一个动态背景的手势识别数据集
2.提出了一种新的背景噪声抑制方式

背景抑制原理

动态背景抑制(DBS)使用简单的思想,即物体离摄像机越近,它将产生的事件越多,因为其视在运动比远处的物体更重要。 通过此属性,可以将焦平面内的相对局部活动链接到深度。 低事件相对活性可以与背景相关联并因此被消除,而相对高活性区域可以与前景相对应。
每个像素单元c,其中活动用Ac表示。对于属于c像素发出的每个传入的event ,ek=(xk,tk,pk),我们可以应用其活动Ac 作以下更新:
在这里插入图片描述
tk表示当前像素事件到达的时间,tc是当前像素的上一次事件的时间。Tb是衰减时间常数(自定义)。
然后,我们可以计算所有单元的平均活动性A。 仅当满足以下条件时,才将传入的event ,ek = {xk,tk,pk)发送给机器学习模块。
在这里插入图片描述
α是过滤常量(自定义),AT是最低前景活动的阈值。为每个传入事件计算活动和阈值,从而在传入事件的时间解析中启用或禁用给定单元。
实验中:tb=300μs,α=2,AT=5.

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
事件驱动视觉是一种新型的目标跟踪方法,它利用视觉传感器对目标的视觉变化进行实时响应。传统的目标跟踪方法往往通过连续的图像帧来实现目标的位置预测和跟踪,然而这种方法在处理高速移动目标时会存在一定的困难。而事件驱动视觉则能够在目标产生事件变化时立即做出响应,实现对目标的快速跟踪和定位。这种方式能够在高速移动目标的情况下更加稳定和准确地进行跟踪,大大提高了目标跟踪的效率和准确性。 事件驱动视觉利用神经元级别的传感器对光强的变化进行监测,只有在光强发生明显变化时才会输出事件信号,因此能够对光线变化的信息进行高效地捕捉。而传统的图像传感器则会对整个图像进行连续的采集和处理,无法很好地应对高速移动目标产生的快速光强变化。通过事件驱动视觉,可以实现对快速移动目标的高速跟踪,同时还能够减少对计算资源的需求,提高目标跟踪的实时性和稳定性。 总的来说,事件驱动视觉为目标跟踪提供了一种全新的思路和方法,通过对光强变化的快速响应,能够实现对高速移动目标的快速、稳定和准确的跟踪,对于机器人、自动驾驶等领域的应用具有非常大的潜力和价值。随着事件传感器技术的不断发展和完善,事件驱动视觉在目标跟踪领域的应用前景也将会更加广阔。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值