【论文阅读:Trajectory Unified Transformer for Pedestrian Trajectory Prediction】

1.TUTR架构

TUTR(Trajectory Unified Transformer for Pedestrian Trajectory Prediction)是一种基于 Transformer 的编码器-解码器架构,用于行人轨迹预测任务。它通过统一的 Transformer 架构,将轨迹预测、社交交互和多模态轨迹预测整合到一个模型中,从而有效地去除了后处理的需求。
在这里插入图片描述
框架由全局预测、模式级编码器和社交及解码器以及双向预测头组成。其中:

  • 全局预测与模式级编码器:TUTR首先通过显式的全局预测和隐式的模式级Transformer编码器来解析不同运动模式之间的关系。全局预测使用两个刚性变换来获得一般的运动模式,这些模式被视为模式级Transformer编码器的输入标记。
  • 社交级解码器:在解析了运动模式之间的关系后,TUTR使用社交级Transformer解码器来关注与邻居的社交互动,以准备一个社会可接受的预测。
  • 双向预测:TUTR使用双重预测来并行预测多样化的轨迹和相应的概率,覆盖未来轨迹的多模态性,而无需任何后处理步骤。

2.TUTR工作原理

TUTR使用编码器-解码器转换器结构来预测未来的运动行为。首先,全局预测生成一般的运动模式。然后,将与观测嵌入串联的一般运动模式作为模式级转换器编码器的输入令牌。随后,编码器输出通过一个社会级解码器参与社会交往。最后,使用对偶预测中的两个共享预测头来获得对偶结果,即预测轨迹和相应的概率。

2.1运动模式生成

解析不同运动模式之间的关系,并生成一般性的运动模式。这些一般性的运动模式被用来作为模式级 Transformer 编码器的输入标记。

  • 刚性变换:对训练轨迹应用两次刚性变换来获得标准化的轨迹。
  • 距离度量:使用聚类算法来显式地获取多样化的轨迹,这些轨迹代表了行人的常见运动行为。
  • 输入标记生成:获得的一般性运动模式被重塑为特征,并通过网络学习到的线性变换来生成输入,这些输入随后作为模式级 Transformer 编码器的输入标记
    在这里插入图片描述

2.2模式级编码器

输入将全局预测得到的一般运动模式进行重塑并嵌入得到的嵌入向量。这些嵌入向量包含了观察到的轨迹信息,并且与全局预测得到的一般运动模式相结合。

  • 编码器架构:模式级编码器采用了标准的 Transformer编码器架构,包括多头自注意力层和前馈全连接网络层。每个编码器块包括这些层,并通过残差连接和层归一化来增强模型的性能和稳定性。
  • 解析运动模式关系:解析各种运动模式之间的关系。这是通过在嵌入向量上应用Transformer编码器的自注意力机制来实现的,从而捕捉不同运动模式之间的依赖关系。
  • 位置编码:TUTR中,轨迹坐标显示了行人和邻居之间的位置关系。
    在这里插入图片描述

2.3社交及解码器

  • 社交互动特征提取:社交级编码器的主要任务是提取行人与其邻居之间的社交互动信息。这是通过分析行人和邻居的历史轨迹来实现的,以便预测他们未来可能的交互方式。
  • 邻居嵌入:社交级编码器的输入是邻居的观察轨迹,这些轨迹被嵌入到一个低维空间中,以便编码器可以处理。这些嵌入随后被传递到解码器中,以提取社交特征。
  • 注意力机制:社交级编码器利用注意力机制来确定行人与其邻居之间的交互强度。这种机制允许模型关注那些对预测未来轨迹最相关的邻居。
  • 并行解码:它可以同时预测多个未来轨迹,显著提高了推理速度。
    在这里插入图片描述

2.4双向预测

  • 回归预测头:负责预测未来轨迹点的位置,即直接预测行人未来的位置序列。
  • 分类预测头:负责预测每个预测轨迹的概率。
    通过这种方式,TUTR 能够为每个预测的轨迹分配一个概率值,表示该轨迹发生的可能性。
    在这里插入图片描述

3.TUTR架构优势

在本文中,提出了一个名为 TUTR 的轨迹统一框架,它将社会互动编码与运动模式编码统一起来通过直接在模型内部处理多模态轨迹预测,消除了后处理的需要,并显著提高了推理速度。主要贡献有:

  • 统一的架构:TUTR 将轨迹预测、社交交互和多模态轨迹预测整合到一个统一的 Transformer 编码器-解码器架构中,避免了复杂的后处理步骤。
  • 高效的推理速度:TUTR 在推理速度上有显著提升,相比使用后处理的方法,推理速度提高了约 10 到 40 倍。
  • 高精度的预测:TUTR 在多个数据集上取得了 state-of-the-art 的性能,证明了其在轨迹预测任务中的有效性。

4.实验分析

4.1数据集和基准

在两个基准数据集ETH-UCY和斯坦福无人机数据集 (SDD) 上进行了实验并对比SOTA。
ETH-UCY是行人轨迹预测领域应用最广泛的基准数据集。它包含在四个不同场景中以鸟瞰视角收集的 1536 个行人轨迹,并分为 ETH、HOTEL、UNIV、ZARA1和ZARA2五个子集。
SDD 是行人轨迹预测方面一个较大的基准数据集,也是通过鸟瞰图捕捉到的。它包含 5,232 名行人在八个不同场景下的轨迹记录。

4.2实验对比

平均ADE和平均FDE

在ETH-UCY数据集

在这里插入图片描述
表中上半部分显示了与未进行后处理的方法的比较。可以看到TUTR在平均ADE和平均FDE方面都达到了最先进的性能。 与之前的最佳方法SIT相比,TUTR将平均ADE/FDE从0.23/0.38提高到0.21/0.35
表下半部分显示了与采用后处理步骤的方法的比较。 TUTR在平均ADE指标上表现出了竞争力,与带后处理步骤的方法(MemoNet和 SocialVAE+FPC)不相上下。在平均FDE指标上,TUTR与之前的最佳方法SocialVAE+FPC仍有0.04的微小差距。
在SDD数据集
在这里插入图片描述
如表所示,上半部分显示了与未进行后处理的方法的比较。 TUTR在ADE和FDE方面也取得了一流的性能。具体来说,与之前的最佳方法 SocialVAE相比,TUTR将ADE/FDE从8.88/14.81提高到了7.79/12.73。
下半部分显示了与后处理步骤方法的比较。与之前SocialVAE+FPC方法相比,TUTR的ADE指标从8.10提高到7.79,表现出最先进的性能。

brier-ADE和brier-FDE

不过,与之前的最佳方法SocialVAE+FPC相比,TUTR在FDE指标上也显示出了性能差距。
在本文中,提出了一种名为brier-ADE和brier-FDE的新指标,增加了最接近预测预测轨迹的概率P,其方程为:
在这里插入图片描述
ETH-UCY数据集中的表现如下表所示:
在这里插入图片描述
SIT无需后处理即可提供概率信息。CAGN使用高斯混杂模型对不同的未来轨迹进行建模,但不提供概率信息。SocialVAE+FPC是之前最先进的方法,有后处理,但没有概率信息。使用VAGN SocialVAE+FPC 的两种变体与 TUTR 进行比较。 如上表所示,TUTR 在brier-ADE 和brier-FDE中都达到了最先进的性能。与 SocialVAE+FPC相比,TUTR 在 ETH-UCY 上将 brier-ADE/brier-FDE从1.12/1.17降低到0.95/1.1。
SDD数据集上,与SocialVAE+FPC相比,TUTR将brier-ADE/brierFDE 从 9.57/14.75 降至8.44/13.53。
在这里插入图片描述

速度对比

本文中分别比较了稀疏和密集行人运动场景下的推理速度。将行人数量 N 分别设置为 5、10、20、40 和 80,然后进行对比。其中N 越大,表示场景越密集。
在这里插入图片描述
如上表所示,TUTR明显优于带有后处理步骤的方法,包括MemoNet和SocialVAE+FPC。
具体来说,MemoNet和SocialVAE+FPC的预测延迟较高,在密集场景中预测一个 4.8 秒的轨迹分别需要 1.2989 秒和 2.0939 秒。相比之下,TUTR 在稀疏场景中的速度提高了约 10 倍,在密集场景中提高了 40 倍。
总之,TUTR 实现了精度性能和推理速度之间的平衡。

消融实验

消融实验的数据集选取SDD。其中GP 是全局预测,MTE 是模式级变压器编码器,STD 是社会级变压器解码器。
GP 被多个可学习的潜在向量取代,这与之前提到的全局预测的消融研究类似。MTE 被前馈网络取代,以进行消融研究。实验结果表明,每个组件都能有效预测各种未来轨迹,并提升ADE和FDE的精度结果。
在这里插入图片描述
ETH—UCY 和 SDD 上一般运动模式的可视化(运动方向是从右到左)。
画出直观视觉效果,以评估其涵盖行人常见运动行为的能力。一般运动模式是在归一化轨迹上获得的,即行人的运动方向是从右向左。如图所示,一般运动模式可代表常见的运动行为,如直行、左转/右转或折返。
在这里插入图片描述
下图是预测的轨迹可视化,可以看出预测轨迹具有良好的多样性,涵盖了行人的各种运动行为,如左转/右转(1,4)、直行(3)、保持站立(6)和急转弯(2,5)。此外,TUTR还能高概率地预测出最佳轨迹。
在这里插入图片描述

总结

聚类算法很难与复杂的数据结构(如地图信息)相匹配。某些情况下,TUTR可能无法充分捕捉到行人轨迹的复杂性,尤其是在城市环境中,行人的移动可能受到多种环境因素的影响。 TUTR 框架可能在一定程度上忽略了时间运动动力学的影响。这可能导致模型在处理复杂场景或长序列预测时的性能受限。
本片博客参考了论文《Trajectory Unified Transformer for Pedestrian Trajectory Prediction》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值