光流估计和物体 跟踪
1:视频的基础概念
-
视频:由一系列的图片拼接而成的,按照一定的速度顺序播放
-
帧:组成视频的静态图像
-
帧率:每一秒钟内视频内静态图像的数量
- 24,人眼是认为动态的视频
- 人眼的极限是55帧,一般的视频都是30帧。倍速的话,是帧率的提高吗?
-
视频的压缩
- 帧内的压缩
- 每一帧之间可能有颜色或者是样式相似的区域
- 帧间的压缩
- 相似视频帧之间可能只有很小的变化
- 帧内的压缩
-
帧的分类
- I帧(关键帧):帧内压缩
- P帧(预测):参考前一个I帧 / P帧来进行压缩
- B帧(双向预测):参考前一个和后一个的 I 帧/ P 帧来进行压缩
2:光流
-
光流:相对于观察者的运动所造成的观测目标,表面或者是边缘的运动
-
光流估计:估计视频帧中的每一个点的光流
- purpose:估计视频帧中的每一个点的光流
- input:视频
- output:光流
- challenge:准确性,计算量
-
Lucas & Kanade
- 假设在连续的帧中,同一个运动物体的亮度不变,也就是像素值不变
- 像素点(x,y)及周围领域内的像素点的运动方向是一致的,采用最小二乘法进行求解。
-
深度学习的方法
-
FlowNetSimple:将两张图片简单排列在一起作为CNN encoder的输入
-
:分别先对两张图像进行卷积,获得较为高层的feature之后,再引入人为定义的规则将信息合并
-
LOSS:给定每个像素的groundTruth的光流,每个像素的损失定义为预测的和groundtruth之间的欧氏距离
-
FlowNet2.0
- 叠加了多个FlowNet网络,实现了由粗到细的光流估计
- 针对于较小的物体估计不准,减小了卷积核的大小,并且缩短了卷积的步长
- 得到了新的数据
-
PWC net
- 采用了图像金字塔
- 做到了视频上的实时光流估计
-
MaskFlowNet
- 在被遮挡的情况下,也能够进行工作
-
应用
- 视频分析
- 每帧独立的处理是比较慢的
- 复用上一次的,精度会有损失
- 对行为进行预测
- 物体检测
- 分割
- 视频分析
3:目标跟踪 / 物体跟踪(Object Tracking)
-
purpose:对于指定的物体,给出他在每个视频帧中的位置
-
input:输入一个视频,一个或者是多个物体
-
output:指定物体的边界线轨迹
-
challenge:姿态改变;亮度;遮挡
-
基本思路
- 输入初始化的目标框,选取一些候选框,并对候选框进行评分,在这些候选框中得到一个得分最高的作为预测的目标
- 怎么样产生候选框框
- 怎么样提取特征
- 怎么样为候选框评分
- 怎么更新模型
- 怎么集成决策
- 输入初始化的目标框,选取一些候选框,并对候选框进行评分,在这些候选框中得到一个得分最高的作为预测的目标
-
评价基准
- OTB:OTB50 和 OTB100
- VOT:ICCV + ECCV
- OTB VOT
- VOT
- VOT是比较好的,他是全是彩色的,但是OTB有 25 %是灰色的
- VOT的分辨率普遍比较好
- 并且你如果跟踪丢了,他会在五帧后会给你调回来,
- OTB是随机帧开始,但是VOT是一直从第一帧开始
- OTB VOT
-
相关滤波
- 利用滤波的模板和目标候选区域做相关的运算,最大输出响应的位置就是当前帧的目标位置
-
深度学习
- 底层的特征具有较高的分辨率,能够对目标进行精准的定位
- 高层的特征则包含更多的语义信息,处理较大的变换和防止跟踪器漂移,对目标进行范围定位
- 训练和速度
-
物体轨迹提议
- purpose:给出视频中可能包含物体的边界框的轨迹
- 输入:视频
- output:一组边界框的轨迹
- challenge:组合爆炸,似物性估计
-