光流估计和物体跟踪

最新推荐文章于 2024-04-13 22:32:42 发布

pjiang000

最新推荐文章于 2024-04-13 22:32:42 发布

阅读量229

点赞数 1

分类专栏：机器学习文章标签：计算机视觉

本文链接：https://blog.csdn.net/weixin_44412864/article/details/118197591

版权

机器学习专栏收录该内容

48 篇文章 3 订阅

订阅专栏

光流估计和物体跟踪

1：视频的基础概念

视频：由一系列的图片拼接而成的，按照一定的速度顺序播放
帧：组成视频的静态图像
帧率：每一秒钟内视频内静态图像的数量
- 24，人眼是认为动态的视频
- 人眼的极限是55帧，一般的视频都是30帧。倍速的话，是帧率的提高吗？
视频的压缩
- 帧内的压缩
  - 每一帧之间可能有颜色或者是样式相似的区域
- 帧间的压缩
  - 相似视频帧之间可能只有很小的变化
帧的分类
- I帧（关键帧）：帧内压缩
- P帧（预测）：参考前一个I帧 / P帧来进行压缩
- B帧（双向预测）：参考前一个和后一个的 I 帧/ P 帧来进行压缩

2：光流

光流：相对于观察者的运动所造成的观测目标，表面或者是边缘的运动
光流估计：估计视频帧中的每一个点的光流
- purpose：估计视频帧中的每一个点的光流
- input：视频
- output：光流
- challenge：准确性，计算量
Lucas & Kanade
- 假设在连续的帧中，同一个运动物体的亮度不变，也就是像素值不变
- 像素点（x，y）及周围领域内的像素点的运动方向是一致的，采用最小二乘法进行求解。
深度学习的方法
- FlowNetSimple：将两张图片简单排列在一起作为CNN encoder的输入
- ：分别先对两张图像进行卷积，获得较为高层的feature之后，再引入人为定义的规则将信息合并
- LOSS：给定每个像素的groundTruth的光流，每个像素的损失定义为预测的和groundtruth之间的欧氏距离
- FlowNet2.0
  - 叠加了多个FlowNet网络，实现了由粗到细的光流估计
  - 针对于较小的物体估计不准，减小了卷积核的大小，并且缩短了卷积的步长
  - 得到了新的数据
- PWC net
  - 采用了图像金字塔
  - 做到了视频上的实时光流估计
- MaskFlowNet
  - 在被遮挡的情况下，也能够进行工作
- 应用
  - 视频分析
    - 每帧独立的处理是比较慢的
    - 复用上一次的，精度会有损失
  - 对行为进行预测
  - 物体检测
  - 分割
3：目标跟踪 / 物体跟踪（Object Tracking）
- purpose：对于指定的物体，给出他在每个视频帧中的位置
- input：输入一个视频，一个或者是多个物体
- output：指定物体的边界线轨迹
- challenge：姿态改变；亮度；遮挡
- 基本思路
  - 输入初始化的目标框，选取一些候选框，并对候选框进行评分，在这些候选框中得到一个得分最高的作为预测的目标
    - 怎么样产生候选框框
    - 怎么样提取特征
    - 怎么样为候选框评分
    - 怎么更新模型
    - 怎么集成决策
- 评价基准
  - OTB：OTB50 和 OTB100
  - VOT：ICCV + ECCV
    - OTB VOT
      - VOT
      - VOT是比较好的，他是全是彩色的，但是OTB有 25 %是灰色的
      - VOT的分辨率普遍比较好
      - 并且你如果跟踪丢了，他会在五帧后会给你调回来，
      - OTB是随机帧开始，但是VOT是一直从第一帧开始
- 相关滤波
  - 利用滤波的模板和目标候选区域做相关的运算，最大输出响应的位置就是当前帧的目标位置
- 深度学习
  - 底层的特征具有较高的分辨率，能够对目标进行精准的定位
  - 高层的特征则包含更多的语义信息，处理较大的变换和防止跟踪器漂移，对目标进行范围定位
  - 训练和速度
- 物体轨迹提议
  - purpose：给出视频中可能包含物体的边界框的轨迹
  - 输入：视频
  - output：一组边界框的轨迹
  - challenge：组合爆炸，似物性估计

pjiang000

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
光流估计和物体跟踪

光流估计和物体跟踪1：视频的基础概念视频：由一系列的图片拼接而成的，按照一定的速度顺序播放帧：组成视频的静态图像帧率：每一秒钟内视频内静态图像的数量24，人眼是认为动态的视频人眼的极限是55帧，一般的视频都是30帧。倍速的话，是帧率的提高吗？视频的压缩帧内的压缩每一帧之间可能有颜色或者是样式相似的区域帧间的压缩相似视频帧之间可能只有很小的变化帧的分类I帧（关键帧）：帧内压缩P帧（预测）：参考前一个I帧 / P帧来进行压缩B帧（双向预测
复制链接

扫一扫