CVPR 2018 MX-LSTM阅读记录

最新推荐文章于 2021-01-31 09:05:25 发布

Y.Z.A

最新推荐文章于 2021-01-31 09:05:25 发布

阅读量421

点赞数 1

本文链接：https://blog.csdn.net/yangyoung1223/article/details/104746115

版权

Abstract & Introduction

完整的题目是MX-LSTM: mixing tracklets and vislets to jointly forecast trajectories and head poses，就是说引入了tracklets和vislets这两个新的东西来进行轨迹预测
tracklet：在tracking中的连续的一小部分图像序列
vislet：在头部位姿估计中的短序列
迄今（论文发稿）为止的用LSTM的方法都只用了位置坐标来预测，忽略了还可以从人的头部姿态可以获得的预测信息，这篇文章中的tracklet就是利用位置坐标信息，vislet就是对人的头部位姿进行预测
vislet的优化方法是在LSTM里优化了一个高斯矩阵
vislet也提供了一种构建场景上下文的方法，通过共享一个pooling的过程
同时作为副产物，MX-LSTM也可以预测人在下一秒最可能看向的方向（因为主要贡献是对轨迹的预测，所以头部方向的预测就是副产物）

本文的主要贡献：

•我们表明，通过考虑头部姿态估计，轨迹预测可以显著改善；

•我们提出了一种新的LSTM架构MX-LSTM，它利用位置（tracklets）和方向（vislets）信息，通过优化高于二阶的高斯矩阵来完成

•我们激发了MX-LSTM的需求，表明头部姿势与轨迹相关，即使是在低速度下，大多数预测方法于此失败；

•我们通过利用vislet信息定义了一种新的pooling方法，在[3，55]的意义上；

•由于MX-LSTM，我们在不同的数据集上定义了最先进的预测结果；

•我们提供MX-LSTM头部姿势预测结果，显示新的长期行为分析能力

前人的工作

经典的预测方法有卡尔曼滤波的，线性或高斯回归的，自动回归的，但是都没有把人的行动考虑进去

在之前考虑到了人之间的互动的方法中，要考虑所有的外部人，在本方法中只考虑在人的注意力视锥之内的人

之前的路径预测中都需要知道受追踪的人的目的地是已知的，本方法不需要考虑目的地

虽然高速下头的位姿和动作关系更加紧密，但是低速下也有比较好的关系

LSTM预测模型简述

LSTM很适合那些输出随输入量变化的任务
将行人建模为一个通过“social pooling 层”共享隐藏状态的LSTM，避免出现预测的不一致。这已经有人做的很好了，本文是把social pooling做了一些魔改
本文把头部位姿和轨迹坐标放在一个大的矩阵中一起进行优化

MX-LSTM结构

Tracklets 与 Vislets

对某一个对象而言，一个tracklet包含T个时间连续的坐标点x，一个vislet包含T个时间连续的锚点a（实际上是一个向量），每个锚点和一个坐标点相对应，两个点的距离恒定为r（超参数），a这个向量从x开始指向人脸面向的方向，长度是r。实际而言，这个向量和“绝对水平”之间的夹角就可以拿来代替a，但是为了保持表示的一致性，决定用向量a来表示

用上面的方式形成的tracklet和vislet就被作为两个流送入了MX-LSTM，就可以进行联合的预测，但是送入后要进行如下的预处理，将x和a用嵌入系数作用后变成D维向量，D是隐藏空间的维数
在这里插入图片描述
注意对于每一个行人都要形成一个MX-LSTM

Social Pooling

实际架构是基于之前有的一篇做Social pooling的文章，sp可以让LSTM理解人们在拥挤的场景中为了避免相撞是怎样运动的，这篇文章里考虑了所有的人，甚至考虑了观察者背后的人

所以在本文中考虑只关注view frustum of attention (VFOA)——人注意力视锥中的人，视锥的中心线就是a向量，展开角度和深度应该都是超参数

本文的social pooling是一个NND的张量，行人身边的空间被划分为N*N的小格子，池化函数如下：（m,n,h都是啥意思？），若j在i的VFOA里面，就会被扔进去加和
在这里插入图片描述
随后又会被统一包装

最终形成MX-LSTM的递归方程

LSTM递归

标准的LSTM里面，hidden state必须包含一个四维的高斯分布，协方差矩阵代表tracklet和vislet之间的协方差，然后运算来实现估计
在这里插入图片描述
LSTM的权重参数通过最小化这个log函数来获得，为了避免过拟合加了L2正则

Tobs是LSTM看到真值的时间帧，剩下的是做预测要用的时间帧

MX-LSTM优化

要通过优化上面那个特别长的方程来估计一个满秩矩阵是很难的，所以必须保证矩阵半正定，原有的LSTM优化方法无法处理高于二阶的矩阵优化

解决方案涉及无约束优化，对待学习变量的合适的参数化允许执行正半定约束，这更容易表达，极大地提高了优化算法的收敛性。

具体来讲利用了Choleski factorization，这个方法有个缺陷是解不是独特的，解向量每一行乘上-1之后也是解，要保证唯一，就要让对角线元素为正（通过数学的方法可以做到，这里略过）

MX-LSTM的背景

1）人们经常不看向走路方向的正前方，有25%的视频序列中偏移大于20°
2）头部位姿和运动有强相关性，速度越快，头部位姿和运动方向相关性越大，要让LSTM学到这一点
3）速度越低，预测的效果越差

实验结果

分为定量和定性实验
Zara02数据集上表现相对于其他方法优秀的最多
social reasoning去掉之后对性能的影响最大
MX-LSTM要求前八帧给定ground truth，也测试了前八帧用学习估计的MX-LSTM-HPE版，效果比MX-LSTM差一些但是依然优于其他的方法

Y.Z.A

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2018 MX-LSTM阅读记录

Abstract & Introduction完整的题目是MX-LSTM: mixing tracklets and vislets to jointly forecast trajectories and head poses，就是说引入了tracklets和vislets这两个新的东西来进行轨迹预测...
复制链接

扫一扫