Efficient Online Multi-Person 2D Pose Tracking with Recurrent Spatio-Temporal Affinity Fields论文简单解读

(提要:这是卡内基梅隆大学即Detect-and-Track论文后又一篇姿态跟踪的论文,本文的算法运用到了卡内基梅隆大学在姿态估计中OpenPose的PAFs部分亲和场的问题。)

摘要:

1.提出了一个可跨视频序列编码的预测时空亲和场的结构(Spatio-Temporal Affinity Fields (STAF)
2.提出了一种跨肢体连接的结构图
3.从以前帧的STAFheatmap来估计当前帧的情况
多人追踪是编码跨时间域内关键点和肢体的位置和方向作为TAFs

网络结构图:

本文采用的是递归神经网络,并将其分为四个阶段:
网络同OpenPose前面的基础部分依然采用的是VGG网络做特征提取
在这里插入图片描述其中:
a). K为关键点集合:K={K1,K2,K3…Kk}
b). L为部分亲和场集合PAFs: L={L1,L2,L3…Ll} 根据每帧的关键点生成的,亲和场的目的就是知道哪些关键点在哪片部位上
c). R为时空亲和场集合TAFs: R={R1,R2,R3…Rr} 捕获递归并跨帧连接关键点
”以上共同组成STAF结构“

其中每层的运算方法如下,本文在此提供了三种算法,但经过测试只有前两种的算法获得的MOTA更高些:

第一种方法
这种算法中使用了递归CNN,缺点是计算量大
在这里插入图片描述

第二种方法
第二种方法并没有采用上面的CNN结构
在这里插入图片描述
从图中我们可以看出这是一个Online的系统(只能利用前一帧的情况来估计下一帧的情况)。该结构利用了视频中的冗余信息,即前一帧中的PAFs和keypoints来预测当前帧中PAFs和keypoints位置。

不同帧的肢体连接又有以下三种情况:
在这里插入图片描述
**

推断与追踪:

**
推断下一帧的姿势
每帧内姿势由一个集合{Pt1,Pt2…Ptn}组成
其中每一个姿势Ptn又由众多个预测的关节点集合组成
在这里插入图片描述
这里的每一个Ktn都是将heatmap经过缩放到原始图像的分辨率+NMS得到的

追踪

根据PAFs和TAFs的得分进行排序推测姿势和关联其id

(i) 如果PAF中的两个关键点都是未分配的,我们初始化一个新的姿势;
(ii)如果其中一个关键点被分配,则添加到现有姿势;
(iii)如果两个关键点都被分配到同一姿势,则更新PAF在姿势中的得分;
(iv)如果关键点属于不同姿势,且相反的关键点未分配,则合并两个姿势

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值