Introduction
这个可以算是MX-LSTM的原型作了,主要贡献在于之前的做法都是用Social force为代表的人工方程来预测
前人已经有人考虑如何使用周边环境的信息来预测人们的行动,只不过他们都有以下两个缺点:
1)用的是自创的方程来建模人和人之间的互动
2)所关注的人之间的互动只包括了那些离得特别近以至于快要撞上的人,没能建模更多的人
然而LSTM有个问题,就是虽然它能处理一条长序列,但是不能找出多条序列之间的依赖关系,解决方法是建造一个Social的池化层,让这些有关系的每个人的LSTM在这里共享隐藏层
相关工作
Social Force 模型一度非常流行,效果也很好,但是不是数据驱动的,这里的方法是数据驱动的
另外的一些预测模型用的都是静态场景信息,这里是动态的人群互动
RNN及其变种LSTM对于时序任务处理非常有用
模型概述
为每个人设置一个LSTM,学习每个人不同的行动特征
然而如果这些LSTM不互相通讯,是不可能理解人和人之间的互动特征的,所以要搞一个公共的池化层
为了把周围所有个体的隐藏信息同时处理,引入一个Social的池化层,同时处理多个周围个体的隐藏状态,否则会因为一个一个处理而崩掉,池化方程如下
随后将坐标和收到的隐藏状态信息打包串接送入LSTM
位姿估计:t 时刻被估算的位置坐标服从高斯分布
loss function如下
实验
在ETH和UCY两个数据集下运行
使用
average displacement error,
final displacement error,
average non-linear displacement error三个来衡量
在检测中使用“留一法”
实际是看八帧,预测接下来的十二帧
UCY数据集下的表现要比ETH更好,因为UCY更为稠密,包括更多的人很多的区域,因为人多的条件下人们的动作更容易受到周围人的影响
Future Work
将Social-LSTM扩展到人、车等多种物体共同存在的场景中,每一类分配一个标签
Social-LSTM同时也能描述人和周围环境的互动,也许可以拿来搞事情