Back to MLP: A Simple Baseline for Human Motion Prediction

本篇论文解决的问题:

用RNN、GCN等复杂网络结构的参数量很大,超过200万→使用基于MLP的轻量级网络,只有0.14万个参数。

作者的观点:

  1. 人类运动预测可以以一种简单的方式建模,而无需明确融合空间和时间信息;
  2. 输入的最后一个动作与预测动作最接近,让网络来预测输出第t帧和最后一帧之间的残差,而不用从头开始预测绝对的3D姿态。

作者提出的SIMLPE模型只由全连接层组成,且输入维数等于输出维数,结构包括:

  1. FC层
  2. LN层
  3. Transpose operation转置操作

首先对数据进行DCT变换,采用DCT变换对时间信息进行编码,可以将图片信息压缩加工成序列。输入为T*C,T帧,每一个动作C个参数表示,其中C=3*K(K是关节点数,一个关节点由一个3维坐标表示);输出N*C。

给定输入T帧,对应的DCT变换矩阵D(维度为T*T),δ是克罗内克函数(Kronecker delta,两个整数相等输出1,不相等输出0)表示成:

 经过DCT变换后,用一个全连接层只对空间维度进行操作。z0:T*C;W0:C*C;b0:C。起到转置的作用,(输出时再重新转置回去)。

 m块MLP仅仅对时间维度操作,跨帧合并信息。zi表示第i个block 的输出(形状为T*C,i从1到m),W的维度为T*T,bi为T。

接着,像一开始的全连接层一样,只对特征的空间维度操作。最后用IDCT变换得到最终结果。

N和T不一定要相等,T更大时就截取输出的前N帧作为预测结果,T更小的时候就将其扩充到N帧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值