It Is Not the Journey But the Destination: Endpoint Conditioned Trajectory Prediction

最新推荐文章于 2023-09-20 21:28:26 发布

置顶学号高并发

最新推荐文章于 2023-09-20 21:28:26 发布

阅读量1k

点赞数

分类专栏：论文翻译文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44472627/article/details/114600221

版权

论文翻译专栏收录该内容

22 篇文章 0 订阅

订阅专栏

这不是旅程，而是目的地：端点条件轨迹预测
摘要。对于人类环境中的自动导航（例如，对于自动驾驶汽车和社交机器人）而言，具有多个社交交互代理的人类轨迹预测至关重要。在这项工作中，我们提出了预测终点条件网络（PECNet），用于灵活的人体轨迹预测。 PECNet推断远处的轨迹终点，以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符合社会要求的轨迹。此外，我们提出了一个简单的“截断技巧”，以改善多样性和多模式轨迹预测性能。我们显示，PECNet在斯坦福无人机轨迹预测基准上的最新性能提高了约20.9％，在ETH / UCY基准上的性能提高了约40.8％（可在项目主页上找到代码： https://karttikeya.github.io/publication/htf/）。

1 介绍

预测动态对象的运动是自动驾驶人员的主要问题，无论是人类，社交机器人[1]还是自动驾驶汽车[2]。实际上，在不断变化的环境中进行平滑且安全的路径规划时，确实需要通过预测来预测。人类是最常遇到的动态物体之一。因此，预测人体运动对于导航，计划，人机交互以及其他关键机器人任务至关重要。但是，预测人类的运动会产生细微差别，因为人类不是根据牛顿定律进化的无生命实体[3]。相反，人类有意愿施加因果力来改变其运动，并在绕过障碍物以实现其目标时不断调整其路径[4]。这个复杂的计划过程是部分内部的，因此使根据观测结果预测人类轨迹具有挑战性。因此，除了过去的移动历史外，还应考虑多个方面，例如潜在的预定目标，场景中的其他移动主体以及社会行为模式。
在这项工作中，我们建议通过对中间随机目标（称为端点）建模来解决人体轨迹预测问题。我们假设三个独立的因素相互作用以塑造行人的轨迹。首先，我们假设行人对他们的长期理想目的地有所了解。我们将此假设扩展到子轨迹，即行人具有一个或多个中间目的地，我们将其定义为局部轨迹的潜在终点。这些子目标可以更轻松地与过去的观察结果关联起来，以预测可能的下一步行动，并弄清潜在的未来轨迹。
其次，考虑到当前场景元素，行人计划一条轨迹以到达这些子目标之一。最终，当代理人执行计划时，轨迹会被修改以考虑其他移动代理人，同时遵守互动的社会规范。
根据上述直觉，我们建议将轨迹预测问题分解为两个子问题，这也可以激发我们提出的体系结构（图1）。首先，鉴于场景中人类的先前轨迹，我们建议估计潜在的信念分布，以模拟行人的可能终点。使用此估计的潜在分布，我们根据观察到的轨迹为每个行人采样合理的端点。然后，预测出符合社会需求的未来轨迹，不仅以行人及其近邻的历史（观察到的轨迹）为条件，而且还以每个人的估计终点为条件。
总之，我们在这项工作中的贡献是三方面的。首先，它是一种符合社会标准，端点条件的变分自动编码器，它紧密地模仿了多模式人类轨迹规划过程。第二，我们提出了一个新颖的基于自我关注的社交池层，该层概括了先前提出的社交池机制。第三，我们证明了我们的模型可以预测稳定且合理的中间目标，从而可以在多个轨迹预测基准上设置新的最新技术，在SDD [5]上提高20.9％，在ETH [6]上提高40.8％。 UCY [7]。
在这里插入图片描述
图1.模仿人员路径规划过程。我们提出的行人轨迹预测模型方法（左上方）将任务分解为两个步骤：（a）推断局部终点分布（右上方），然后（b）对采样的未来终点进行调整（左下方）以进行联合规划场景中所有特工的符合社会规范的轨迹（右下）。

2. 相关工作

以前有很多研究[8]，涉及如何预测行人的轨迹并预测行人的行为。一些先前的工作建议从观察到的运动轨迹中学习统计行为模式，以用于将来的轨迹预测[9-18]。从那时起，许多研究已经开发了模型来解释可能会影响轨迹的代理交互，特别是通过场景和/或社交信息。最近，人们非常关注多模态轨迹预测，以捕捉过去给出的各种可能的未来轨迹。也有一些关于目标导向路径规划的研究，该研究在预测路径时会考虑行人的目标。

2.1基于上下文的预测

先前的许多研究都将环境语义（例如人行横道，道路或交通信号灯）引入了他们提出的轨迹预测方案。 Kitani等。 [19]通过马尔可夫决策过程（MDP）对主体与空间的相互作用进行编码，以预测主体的潜在轨迹。 Ballan等。 [20]利用动态贝叶斯网络从训练数据构建运动依赖性和模式，并将训练后的知识转移到测试数据。随着深度神经网络的巨大成功，递归神经网络（RNN）已成为用于序列学习的流行建模方法。 Kim等。 [21]训练结合多个长期短期记忆（LSTM）单元的RNN，以预测附近汽车的位置。这些方法结合了来自场景RGB图像的丰富环境提示，用于行人的轨迹预测。
周围动态主体的行为也是上下文轨迹预测的关键提示。从人群的角度研究人类行为模型，即行人如何与其他行人互动，也已在人类轨迹预测文献中得到了广泛研究。传统方法使用社会力量[22–25]来利用吸引力吸引行人朝自己的目标前进的轨迹，同时避免在道路上与排斥力相撞。这些方法需要手工制定的规则和功能，这些规则和功能通常很复杂，并且对于复杂的高级行为建模而言不够鲁棒。最近，许多研究将长期短期记忆（LSTM [26]）网络应用到具有社交线索的轨迹预测模型中。 Alahi等。 [27]是社交LSTM，它学会预测关节相互作用的轨迹。每个行人都由一个单独的LSTM建模，并且LSTM与他们附近的单个LSTM连接，以共享来自隐藏状态的信息。

2.2 多峰轨迹预测

在[28,29]中，作者提出了考虑人类路径固有的多峰本质的重要性，即鉴于行人的过去历史，他们可以采取许多可能的未来路径。重点转移到计划未来的多条路，导致许多近期的工作将多模态纳入其轨迹预测模型。 Lee等。 [28]提出了一个条件变分自动编码器（CV AE），称为DESIRE，在基于采样的逆向最优控制（IOC）方案中，基于代理交互，场景语义和预期奖励函数来生成多个未来轨迹。在[29]中，古普塔（Gupta）等人。提出了一种基于对抗性生成网络（GAN）[30]的框架，该框架具有一种新颖的社交集合机制，可以根据社交规范生成多个未来的轨迹。在[31]中，Sadeghian等人。还提出了一个名为SoPhie的基于GAN的框架，该框架利用了场景中所有代理的路径历史以及场景上下文信息。 SoPhie采用具有社交注意力的社交注意力机制，该机制有助于通过代理交互来学习社交信息。但是，这些具有社会意识的方法并未考虑行人的最终目标，而最终目标在塑造他们在场景中的运动方面起着关键作用。一些作品也通过逆强化学习（IRL）设置来进行轨迹预测。邹等。 [32]将生成的对抗模仿学习（GAIL）[33]应用于轨迹预测，称为社交意识的GAIL（SA-GAIL）。利用IRL，作者通过将人作为具有状态（过去的轨迹历史）和动作（未来的位置）的主体进行建模，从而更加紧密地对人类的决策过程进行建模。 SA-GAIL通过学习的奖励函数生成社会可接受的轨迹。

2.3 以目标为条件

通过计划在预测整个轨迹之前学习代理的最终意图或目标的方法，可以将目标条件化的方法视为反向计划或预测。在[34]中，Rehder等人。提出了一种基于粒子滤波的方法来对目的地条件轨迹预测进行建模，并使用基于显式Von-Mises分布的概率框架进行预测。后来在后续工作中，[35] Rehder等人。进一步提出了一种基于深度学习的目的地估计方法，以同时解决意图识别和轨迹预测。该方法使用完整的卷积神经网络（CNN）来构建通向某个潜在目的地的路径规划，该路径规划由循环混合密度网络（RMDN）提供。虽然这两种方法都尝试进行目的地条件的预测，但由于训练和更新不稳定，所以完全概率的方法训练效果较差。此外，他们忽略了场景中其他行人的存在，这对于预测仅考虑环境而错过的短期运动至关重要。 Rhinehart等。 [36]提出了一种称为PRECOG的目标条件多主体预测方法，该方法学习了一种基于驾驶员前进，停车等行动意图的概率预测模型。但是，他们的方法是为车辆轨迹预测而设计的，关于语义目标状态。在我们的工作中，我们建议将目标位置用于行人轨迹预测。
在[37]中，李等人。假设条件生成神经系统（CGNS），即ETH / UCY数据集上先前建立的最新结果。他们建议使用带有软注意的变分散度最小化来预测可行的多模态轨迹分布。最近，Bhattacharyya等人。 [38]提出了一种条件流VAE，该条件流提出了用于结构化序列预测的一般归一化流，并将其应用于轨迹预测问题。与我们的工作同时进行的是Deo等。 [39]提出了P2TIRL，一种基于最大熵增强学习的离散网格上的轨迹预测模块。这项工作[38]与TrajNet [40]分开的斯坦福无人机数据集（SDD）上的[39]共享最新技术。但是，这些工作未能考虑问题的人为因素，例如与其他代理的交互。我们在SDD和ETH / UCY数据集上将我们提出的PECNet与以上所有三项工作进行了比较。

3拟议方法

在这项工作中，我们旨在通过共同推理场景中的所有人类，同时尊重社会规范来解决人类轨迹预测的任务。假设行人pkenters场景I。给定过去tpstep的p的先前轨迹，作为坐标序列Tk p：= {uk} tp i = 1 = {（xk，yk）} tp i = 1，该问题需要预测pkon I在接下来的tfsteps中的未来位置，
在这里插入图片描述
如第1节所述，我们将该问题分为两个菊花链步骤。首先，我们对pk的子目标进行建模，即pksay的最后观察到的轨迹点，Gk = uk | tp + tfas表示pk的偏爱到达其预定路径。此子目标，也称为轨迹的终点，即行人当前序列所需的终点。然后在第二步中，我们共同考虑场景中所有行人{pk}αk = 1的过去历史{Tk p}αk = 1和他们的估计端点{Gk}αk = 1，以预测符合社会需求的未来轨迹k在本节的其余部分，我们将详细描述实现此目标的方法，使用端点估计V AE对未来端点G进行采样，并使用轨迹预测模块使用采样的端点Gk来预测Tf。

3.1端点 VAE

我们建议将行人的偏爱建模为次目标端点G：= utf =（xtf，ytf），这是行人pk的最后观察到的轨迹点。首先，我们基于先前的端点V AE的位置历史记录Ti推断G的分布。
在这里插入图片描述
图2所示。PECNet的架构:PECNet使用了past history, Tialong和ground truth endpoint Gcto来训练一个用于多模态端点推断的V AE。Ground-truth端点表示为，而x表示采样端点ˆGc。抽样端点条件社会统筹和预测网络多智能体多模态轨迹预测。红色连接部分表示仅在训练中使用的部件。相同颜色的深浅表示用社会池化模块中的对角线社会面具编码的时空邻居。详情见第3.1节。(颜色图在线)

如图2所示，我们提取了所有行人场景的先前历史Tk i和地面真值端点Gk。我们使用过去轨迹编码器Epast对所有过去的轨迹Tk i进行pkindependent编码。这样就产生了Epast（Ti），它是运动历史的表示。类似地，用端点编码器Eend编码的未来端点Gkis对所有k独立产生Eend（Gk）。这些表示被串联在一起，并传递到潜伏编码器Elatent，后者产生用于编码V AE的潜伏变量z = N（μ，σ）的参数（μ，σ）。最后，我们从N（μ，σ）采样可能的潜在未来端点，将其与Epast（Ti）连接以用于过去的上下文，并使用潜在解码器Dlatent进行解码，以得出ˆGk的猜测。由于地面真值Gk属于未来，并且在测试时不可用，因此在评估过程中，我们从N（0，σTI）中采样z，并与Epast（Ti）串联（如在训练中所做的那样），然后使用学习到的Dlatent来估计未来ˆGk 。这在图2中进行了说明，其中红色连接仅在训练中使用，而不在评估阶段使用。
截断技巧：在[41]中，Brock等人。介绍“截断技巧”，作为在BigGAN中生成器生成的样本的保真度和各种样本之间进行权衡的一种方法。在这项工作中，我们为多模式轨迹预测中的评估阶段提出了类似的技巧，其中潜在端点采样分布的方差根据允许多模式预测的样本数（K）进行更改。在需要很少镜头多模态预测的情况下，例如在计算约束下，仅允许少量样本（K = 1,2或3），我们建议使用σT= 1并在±c√处截断采样分布K − 1.相反，在要生成大量预测的情况下（例如，K = 20，这是基准的标准设置），我们建议使用无截断的σT> 1。我们假定，此过程允许简单地调整预测分集，从而有利于针对不同K的整体性能，从而提供一种无需任何重新训练即可在所有设置下实现良好性能的简单方法。

3.2端点条件轨迹预测

使用来自端点V AE的端点G的采样估计值，我们再次使用端点编码器Eendonce（在同一前向通过内）以获得采样端点Eend（ˆGk）的编码。这与预测网络一起使用，以规划从Tfstart到G的路径，从而预测未来的路径。
请注意，另一种设计选择可能是，即使在训练期间，也要使用地面真值Eend（Gk）来预测未来的Tf。这似乎也很合理，因为它为下游社交汇总和预测网络提供了更干净，噪音更少的信号，同时仍在端到端地训练整个模块（因为通过Epast进行耦合）。但是，这样的选择将使Endpoint V AE的训练（然后仅在KL Divergence和A WL丢失的情况下进行训练，请参阅第3.3节）与社交池网络（然后仅在ATL损失的情况下进行培训，请参阅第3.3节）进行耦合。），从经验上讲会导致效果不佳。
然后将采样的端点的表示形式Eend（ˆGk）与相应的Epast（Ti）连接起来（如第3.1节所述），并使用N个社交池掩码M对场景中的所有行人共同进行N轮社交池。社交池遮罩M是表示场景中所有{pi}αi = 1行人的社交邻居的α×α块对角矩阵。数学上
在这里插入图片描述
其中F（.）表示观察到轨迹的实际帧号。直观地，M定义每个行人在空间上的接近度阈值tdistfor距离的时空邻居，并确保时间重叠。因此，矩阵M对关于不同轨迹的社会局部性的关键信息进行编码，如下所述，该关键信息在基于注意力的汇集中得到利用。
社交池：考虑到过去的历史记录和采样的航点表示X（1）k =（Epast（Tk p），Eend（ˆGk）），我们进行了N轮社交池，其中第（i + 1）轮池根据非本地注意力机制从上一轮递归更新表示X（i）k [42]：
在这里插入图片描述
其中{θ，φ}是Xkto的编码器映射到学习的潜在空间，其中对于每一轮池，使用嵌入式高斯exp（φ（Xk）Tθ（Xj））计算pi和pj轨迹之间的表示相似度。社交遮罩M是逐点使用的，仅允许在时空邻居上进行池化，以掩盖场景中的其他行人。最后，g是Xkused的变换编码器，用于与所有其他邻居的加权和。整个过程重复N次后，得出X（N）k，这是每个行人的合并预测特征，其中包含有关场景中所有其他邻居的过去位置和未来目的地的信息。
我们提出的社会统筹是一种使用非本地注意力从邻居中提取相关信息的新颖方法。拟议的社会非本地汇集（S-NL）方法是不变的行人指数，作为解决社会汇集任务的有用归纳偏差。此外，我们认为，与先前提出的方法（例如最大池[29]，基于排序的池[31]）相比，这种学习型社会池的方法对于诸如错误指定的距离（tdist）阈值之类的社会邻居错误识别更为健壮。或基于刚性网格的合并[27]，因为基于学习的方法可以忽略社交蒙版M中的虚假信号。
然后，将合并的特征X（N）k通过预测网络Pfuture，以得出我们剩余轨迹的估计在这里插入图片描述
，并将其与采样的端点G产量ˆTf连接起来。完整的网络经过端到端的培训，损失将在下一部分中描述。

3.3损失函数

为了训练整个网络的端到端，我们使用丢失功能，
在这里插入图片描述
在使用KL散度项来训练变分自动编码器的情况下，平均端点损失（AEL）会训练Eend，Epast，Elatentand Dlatent，而平均轨迹损失（ATL）会一起训练整个模块。

4 实验

4.1数据集

Stanford Drone数据集：Stanford Drone数据集[5]是鸟瞰人类轨迹预测的公认基准。该数据集由20幅场景组成，这些场景是使用无人机在大学校园内自上而下捕获的，包含几个移动人员，例如人和车辆。它由11,000多名独特的行人组成，捕获了代理商之间的185,000多次互动以及代理商与场景之间的40,000多次互动[5]。我们使用[29,31,39]和其他先前工作中使用的标准测试序列拆分。
在这里插入图片描述
表1.我们的方法与斯坦福无人机数据集[5]上的几种最新发表的多峰基线和以前的最新方法（用*表示）的比较。 “ -S”和“ -TT”表示我们方法的消融，没有社交汇总和截断技巧。我们报告了图5中K = 5和20以及其他几个K的像素结果。 †表示同时进行的工作。越低越好。
ETH / UCY：第二个是ETH [6]和U C Y [7]数据集组，它由五个不同的场景组成-ETH＆HOTEL（来自ETH）和UNIV，ZARA1和ZARA2（来自UCY）。所有场景都报告了行人在世界坐标中的位置，因此我们报告的结果以米为单位。场景是在不受约束的环境中捕获的，几乎没有物体挡住行人路。因此，来自其他物理非动画实体的场景约束最小。对于基准测试，我们遵循常用的休假一开始策略，即在四个场景上进行训练并在第五个场景上进行测试[29,31,37]。

4.2实施细节

提出的模块中使用的所有子网都是具有ReLU非线性的多层感知器。图3中提到了每个子网的网络体系结构。对于所有实验，使用ADAM优化器以LE-V AEloss端到端地训练整个网络，批处理大小为512，学习速率为3×10-4。对于损耗系数权重，我们设置λ1=λ2= 1。 N = Stanford Drone数据集的三轮社交池，N = 1个E T H和UCY场景。使用社交遮罩，我们以小批方式执行前向通行，而不是在单个前行通行中处理场景中的所有行人（以防止出现类似的内存溢出），从而将行人的所有邻居都限制在同一小批行中。
在这里插入图片描述
图3.模块中使用的所有子网的网络体系结构详细信息。
指标：对于预测评估，我们使用文献中常用的平均位移误差（ADE）和最终位移误差（FDE）指标[25,27,29,37]。 ADE是预测值与地面实况未来之间的平均？2距离，FDE是预测值与地面实况在最后一个观测点之间的？2距离。数学上
在这里插入图片描述
其中uj，ˆ uj分别是地面真相和我们在未来时间步长j处行人的估计位置。
基准：我们将PECNet与几个已发布的基准进行了比较，包括下面简要介绍的以前的最新方法。
社交GAN（S-GAN）[29]：Gupta等。提出了一种训练有多种损失以鼓励多样性的多模式人类轨迹预测GAN。
SoPhie [31]：Sadeghian等。提出GAN，利用场景中对社交和身体约束的关注来产生类似人的动作。
CGNS [37]：Li等。提出了一个条件生成神经系统（CGNS），该系统使用条件隐性空间学习和变分散度最小化来学习可行的区域以产生轨迹。他们还在ETH / UCY数据集上建立了以前的最新结果.
DESIRE [28]：Lee等人。提出了一种基于逆最优控制的轨迹规划方法，该方法使用精化结构来预测轨迹。
CF-VAE [38]：最近，由Bhattacharyya等人提出的基于条件归一化流的VAE。进一步推动SDD的最新发展。值得注意的是，他们的方法也并不依赖于RGB场景图像。
– P2TIRL [39]：Deo等人的并发工作。提出了一种使用基于网格的策略学习轨迹预测的方法，该策略具有最大熵反强化学习策略。它们与ADE / FDE性能方面的最新技术水平[38]紧密相关。
– SimAug [43]：最近，Liang等人的并发工作。提议对抗性地使用其他3D多视图模拟数据，以实现新颖的相机视图适应。 [43]也对P2TIRL进行了改进，其性能接近PECNet的基本模型。但是，我们最好的模型（具有合并和截断功能）仍然可以实现更好的ADE / FDE性能。
Ours-TT：这表示不使用截断技巧就可以消融我们的方法。换句话说，我们将所有K设置的σT设置为1。图5和表1显示了具有不同K的截断技巧消融。
– Ours-S-TT：这表示我们方法的消融，没有同时使用社交池模块和截断技巧，即基础PECNet。我们将社交池的回合次数设置为σT= 1且N = 0，然后将表示形式直接传输到预测子网络Pfuture。

4.3定量结果

在本节中，我们将根据ADE和FDE指标的上述基准比较并讨论我们方法的性能。
斯坦福无人机数据集：表1显示了我们针对先前基准和最新方法提出的方法的结果。与以前的最新技术[38,39]相比，我们提出的方法在ADE和FDE指标上均实现了卓越的性能，可观的幅度为20.9％。即使不使用拟议的社交池模块和截断技巧（OUR-S-TT），我们也可以取得很好的性能（10.56 ADE），突显了未来终点条件在轨迹预测中的重要性。从Ours-S-TT和Our-TT之间的性能差异可以看出，社交网络模块也发挥了至关重要的作用，将性能提高了0.33 ADE（约2.1％）。请注意，尽管P2TIRL [39]和SimAug [43]都是并行工作，但为了进行实验的全面性，我们在表1中也将其方法的性能进行了比较。所有报告的结果均是100次独立试验的平均值。

表2.在常用的轨迹预测数据集上，各种先前发表的方法和最新方法（用*表示）的定量结果。 ADE和FDE均以米为单位在世界坐标中报告。 “ Our-S-TT”表示我们的方法已消融，没有社交汇总和截断技巧。
ETH / UCY：表2显示了在ETH / UCY场景中对我们提出的方法进行评估的结果。我们遵循CGNS [37] / Social-GAN [29]中的K = 2 0的留一法评估协议。所有报告的数字都没有截断技巧。同样在这种情况下，我们观察到我们的方法优于先前提出的方法，包括先前的最新技术[37]。我们将最新技术平均推高约40.8％，其中对HOTEL的影响最大（74.2％），对ETH的影响最小（12.9％）。此外，如果没有社交汇总和截断技巧（OUR-S-TT），其性能仍然比最新技术高34.6％，这突显了在PECNet中对端点进行条件设置的有用性。
条件航路点位置和预言值：为了进一步评估我们的模型，我们以未来的轨迹点为条件，而不是我们称为航路点的最后观察点。此外，为了将推断条件位置的错误与预测到该位置的路径的错误分离开来，我们使用目标（端点）oracle。目标预告片向模型提供条件位置的地面真相信息，然后使用它来预测其余轨迹。对于每个调节位置，从头开始训练有无目标Oracle的所有模型。
参照图4，我们观察到了一些有趣且有益的趋势，这些趋势支持了我们先前的假设。（A）作为一项健全性检查，我们观察到，随着我们对未来头寸的条件变化，在第7个未来头寸之后，Oracle模型和建议模型的FDE均呈急剧趋势下降。这是可以预期的，因为将来的点会为最终观察到的点提供更多信息。（B）oracle和建议模型的ADE误差曲线都具有相同的下降趋势，尽管斜率比FDE缓和，因为预测其他点（尤其是轨迹中间的嘈杂点）时的误差会减小梯度。（C）有趣的是，我们模型的ADE和FDE与Oracle模型的将来收盘点没有显着差异，并且两个模型的误差直到将来大约第7位时才大致相同。这表明，直到将来中途，条件化的航路点才在端点上没有显着的预测能力，因此，将我们的嘈杂猜测与oracle的地面真实性进行比较，不会产生任何影响。
在这里插入图片描述
图4.条件航路点位置和预言：我们根据ADE和FDE指标上未来条件位置的选择来评估所提出方法的性能。此外，我们评估了该模型的目标oracle版本的性能，该版本接收有关条件位置的完美信息以预测轨迹的其余部分。
参照图4，我们观察到了一些有趣且有益的趋势，这些趋势支持了我们先前的假设。（A）作为一项健全性检查，我们观察到，随着我们对未来头寸的条件变化，在第7个未来头寸之后，Oracle模型和建议模型的FDE均呈急剧趋势下降。这是可以预期的，因为将来的点会为最终观察到的点提供更多信息。（B）oracle和建议模型的ADE误差曲线都具有相同的下降趋势，尽管斜率比FDE缓和，因为预测其他点（尤其是轨迹中间的嘈杂点）时的误差会减小梯度。（C）有趣的是，我们模型的ADE和FDE与Oracle模型的将来收盘点没有显着差异，并且两个模型的误差直到将来大约第7位时才大致相同。这表明，直到将来中途，条件化的航路点才在端点上没有显着的预测能力，因此，将我们的嘈杂猜测与oracle的地面真实性进行比较，不会产生任何影响。
航路点预测误差：航路点位置误差是预测条件位置的位置与其实际地面位置（将来）之间的？2距离。参照图4，当我们对将来的点进行条件调整时，我们会观察到航点误差的有趣趋势。航路点预测误差在开始时会增加，这是可以预期的，因为距离未来较远的点具有较大的方差。但是，在中间（第7个点）之后，误差平稳，然后甚至略有下降。这为我们的假设提供了支持，即行人偏爱目的地，并向目的地施加意志。因此，预测最后观察到的航路点比中途的航路点的预测误差低！简而言之，证实了这项工作的动机。

在这里插入图片描述
图5.跨K的性能：我们的方法相对于用于评估的样本数量的ADE和FDE性能。还提到了几个先前的基线及其使用的样本数量。我们的方法明显优于最新技术，其样本数量少得多，并且在与样本数量相同的情况下表现更好（K = 20）。
样本数量（K）的影响：所有先前的工作都使用K = 20个样本（DESIRE使用K = 5除外）评估度量ADE和FDE的多模态预测。参考图5，我们看到随着K的增加，ADE和FDE的预期下降趋势随时间而下降。此外，我们观察到，我们提出的方法在K较小的情况下实现了与以前的工作相同的误差。最新的最新技术使用K = 20个样本达到了12.58 [39] ADE，PECNet将其匹配了一半。样本数量，K =10。这进一步支持了我们的假设，即以推断的航点为条件可大大降低多模态轨迹预测的建模复杂度，从而提供对地面真相的更好估计。
最后，随着K变大（K→∞），我们观察到FDE随样本数量的增加而逐渐接近于0，这是最终发现地面真理Gcis的结果。但是，由于其余的预测轨迹存在误差，所以ADE误差仍然很大（6.49）。这与针对图4中最后一个观察点（即0 FDE误差）的Oracle的观察到的ADE（8.24）一致。
VAE的设计选择：我们还将评估我们的设计选择，即使用推断的未来航路点ˆGc训练后续模块（社交汇总和预测），而不是使用基本事实Gc。如第3.2节所述，这也是培训PECNet端到端的有效选择。根据经验，我们发现这种设计可达到10.87 ADE和17.0 3 F D E。这比使用ˆGc时要低（约8.8％），这激发了我们选择使用ˆGc的设计选择（第3.2节）。
截断技巧：图5显示了根据经验选择的超参数c≈1.2从截断技巧得到的改进。不出所料，较小的K值从截断中获得最大收益，对于K = 1（约24.7％），性能从22.85 ADE（48.8 FDE）提高到17.29 ADE（35.12 FDE）。

4.4 定性结果

在图6中，我们展示了PECNet预测的几种可视化。如图所示，考虑到过去的运动历史和推断的端点，PECNet可以产生各种预测。在图7中，我们展示了一些符合社会要求的预测的动画。可视化结果表明，PECNet除具有良好的度量标准性能外，还可以执行丰富的多模式多主体预测。
在这里插入图片描述
图6.可视化多模态：我们显示了PECNet产生的一些多模态和多样化预测的可视化。白色代表过去的3.2 s，红色和青色分别代表接下来的4.8 s的预测的和真实的未来。预测捕获了各种可能的轨迹行为，同时抛弃了一些不太可能的轨迹行为，例如与行人运动方向相反的端点。（在线彩色图）
在这里插入图片描述
图7.社交互动动画：圆圈显示过去的3.2 s和星星显示了未来的19.2 s（顶部）和4.8 s（底部），这两个都是地面真实性（左）和预测（右）。最重要的是，PECNet巧妙地捕获了紫色行人的超车行情，预示了红色行人的行进轨迹，从而预测了平滑的切入轨迹，而蓝色行人的轨迹则不受影响（社交遮罩M中的邻居）。在底部，蓝色行人通过加速PECNet准确捕获的最初为线性的轨迹来避免在交叉路口发生碰撞（请参阅补充材料）。在Adobe Acrobat Reader中最好观看动画。（在线彩色图）

5 结论

在这项工作中，我们介绍了PECNet，即行人终点条件轨迹预测网络。我们表明，PECNet可以预测各种场景下丰富多样的多模式社会合规轨迹。此外，我们对几种设计选择进行了广泛的消融，例如端点调节位置，样本数量以及训练信号的选择，以查明从PECNet获得的性能提升。我们还介绍了轨迹预测的“截断技巧” [41]，这是一种在几次射击状态下提高轨迹预测精度的简单方法。最后，我们跨多个数据集对PECNet进行了基准测试，包括Stanford Drone Dataset [5]，ETH [6]和UCY [7]，所有这些都使PECNet达到了最先进的水平。

学号高并发

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
It Is Not the Journey But the Destination: Endpoint Conditioned Trajectory Prediction

这不是旅程，而是目的地：端点条件轨迹预测摘要。对于人类环境中的自动导航（例如，对于自动驾驶汽车和社交机器人）而言，具有多个社交交互代理的人类轨迹预测至关重要。在这项工作中，我们提出了预测终点条件网络（PECNet），用于灵活的人体轨迹预测。 PECNet推断远处的轨迹终点，以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符合社会要求的轨迹。此外，我们提出了一个简单的“截断技巧”，以改善多样性和多模式轨迹预测性能。我们显示，PECNet在斯坦福无人机轨迹预测基准上的最新性能提
复制链接

扫一扫