终点条件下的轨迹预测：It is not the Journey but the Destination: Endpoint Conditioned Trajectory Prediction

具有多个社会交互智能体的人体轨迹预测对于自动驾驶汽车和社会机器人等人类环境中的自主导航具有重要意义。在这项工作中，我们提出了预测终点条件网络（PECNet）用于灵活的人体轨迹预测。PECNet通过推断远处的轨迹终点来辅助远程多模态轨迹预测。一个新颖的非本地社会池层使PECNet能够推断出多样的但符合社会的轨迹。此外，我们提出了一个简单的“截断技巧”来提高多样性和多模态轨迹预测性能。我们表明，PECNet在斯坦福无人机轨迹预测基准上提高了20.9%，在ETH/UCY基准上提高了40.8%。

一、简介

预测动态物体的运动是自主智能体的核心问题，无论是人类、社会机器人还是自动驾驶汽车。在一个不断变化的环境中，为了实现平滑和安全的路径规划，预测确实是必需的。最常见的动态对象之一是人类。因此，预测人体运动对于导航、规划、人机交互和其他关键机器人任务至关重要。然而，预测人类的运动是微妙的，因为人类不是在牛顿定律下进化的无生命实体[3]。相反，人类有意愿施加因果力来改变自己的运动，并在绕过障碍物以实现目标时不断调整自己的路径[4]。这一复杂的规划过程部分是内部的，因此从观测中预测人类的轨迹具有挑战性。因此，除了过去的运动历史之外，还应该考虑许多方面，例如潜在的预定目标、场景中的其他运动主体和社会行为模式。

在这项工作中，我们建议解决人体轨迹预测建模中间随机目标，我们称之为端点。我们假设三个独立的因素相互作用形成行人的轨迹。首先，我们假设行人对他们的长期目的地有一些了解。我们将这一假设扩展到子轨迹，即行人有一个或多个中间目的地，我们将其定义为局部轨迹的潜在端点。这些子目标可以更容易地与过去的观察相关联，以预测可能的下一步，并解开潜在的未来轨迹。

其次，考虑到当前的场景元素，行人计划一条轨迹以达到这些子目标之一。最后，当代理开始执行一个计划时，轨迹会被修改，以考虑其他移动代理，尊重互动的社会规范。

根据上述直觉，我们建议将轨迹预测问题分解为两个子问题，这两个子问题也激发了我们提出的体系结构（图1）。首先，考虑到场景中人的先前轨迹，我们提出了一个潜在的信念分布模型(z=N（µ，σ）)来模拟行人可能的端点。利用这个估计的潜在分布，我们根据观察到的轨迹（历史轨迹）为每个行人（在这个分布中）采样合理的端点。然后预测一条符合社会的未来轨迹，条件不仅是行人和他们的近邻的历史（观察轨迹），而且还以每个人的估计终点为条件。

图1。模拟人体路径规划过程。我们提出的行人轨迹预测模型（左上）将任务分解为两个步骤：（a）推断局部端点分布（右上），然后（b）对采样的未来端点（左下）进行调节，以便为场景中的所有代理共同规划符合社会规范的轨迹（右下）。

总之，我们在这项工作中的贡献是三方面的。首先，我们提出了一种符合社会标准，以端点为条件的变分自动编码器，该编码器紧密模仿了多模式人类轨迹规划过程。其次，我们提出了一个新颖的基于自我关注的社交池层，该层概括了先前提出的社交池机制。第三，我们证明了我们的模型可以预测稳定且合理的中间目标，从而能够在多个轨迹预测基准上设定最新的技术水平，在SDD [5]和ETH [6]上分别提高20.9％和40.8％。 UCY [7]。

二、相关工作

关于如何预测行人的运动轨迹和行为，已有许多研究[8]。之前的一些工作建议从观察到的运动轨迹中学习统计行为模式[9–18]，以用于未来的轨迹预测。从那时起，许多研究开发了模型来解释可能通过场景和/或社会信息影响轨迹的代理交互。最近，有一个重要的焦点是多模态轨迹预测，以捕捉不同的未来可能的轨迹给定的过去。也有一些关于目标导向路径规划的研究，在预测路径时考虑行人的目标。

2.1 基于上下文的预测

许多以前的研究已经将环境语义（如人行横道、道路或交通灯）引入到他们提出的轨迹预测方案中。Kitani等人[19]通过马尔可夫决策过程（MDP）对代理空间交互进行编码，以预测代理的潜在轨迹。Ballan等人[20]利用动态贝叶斯网络从训练数据中构造运动相关性和模式，并将训练的知识转化为测试数据。随着深层神经网络（deep neural network）的巨大成功，递归神经网络（RNN）已成为一种流行的序列学习建模方法。Kim等人[21 2017年]训练RNN结合多个长-短期记忆（LSTM）单元来预测附近汽车的位置。这些方法结合了丰富的环境线索，从RGB图像的场景行人的轨迹预测。

周围动态代理的行为也是上下文轨迹预测的关键线索。从人群角度研究人的行为模型，即行人如何与其他行人交互，在人的轨迹预测文献中也得到了广泛的研究。传统的方法是利用社会力量[22–25]来捕捉行人在吸引力的作用下朝着他们的目标行进的轨迹，同时避免在有排斥力的路径上发生碰撞。这些方法需要手工制作的规则和特征，这些规则和特征通常很复杂，对于复杂的高级行为建模来说不够健壮。近年来，许多研究将长-短期记忆（LSTM[26]）网络应用于具有社会线索的轨迹预测模型。Alahi等人[27]提出了一种社会LSTM，它学习通过联合互动预测轨迹。每个行人由一个单独的LSTM建模，LSTM与其附近的单独LSTM连接以共享隐藏状态的信息。

2.2 多模态轨迹预测

在[28，29 social gan]中，作者提出了考虑人类道路固有的多模态性质的重要性，即考虑到行人过去的历史，他们可以选择许多可能的未来道路。这种将重点转移到规划多条未来路径的做法，导致许多最近的工作将多模态纳入其轨迹预测模型中。Lee等人[28]提出了一种条件变分自动编码器（CVAE），名为DESIRE，在基于采样的逆最优控制（IOC）方案中，基于代理交互、场景语义和期望回报函数生成多个未来轨迹。在[29]中，Gupta等人提出了一个基于生成对抗网络（GAN）[30]的框架，该框架具有一种新的社会共享机制，以根据社会规范生成多个未来轨迹。在[31]中，Sadeghian等人还提出了一个基于GAN的框架SoPhie，它利用了场景中所有代理的路径历史和场景上下文信息。SoPhie采用了一种带有物理注意的社会注意机制，这有助于在行人交互过程中学习社会信息。然而，这些具有社会意识的方法并没有考虑到行人的最终目标，这些目标在塑造他们在场景中的运动方面起着关键作用。一些工作也通过逆强化学习（IRL）来实现轨迹预测。邹等人[32]将生成性对抗性模仿学习（GAIL）[33]应用于轨迹预测，命名为社会感知GAIL（SA-GAIL）。利用IRL，作者将人类建模为具有状态（过去轨迹历史）和动作（未来位置）的轨迹，从而更紧密地模拟人类的决策过程。SA-GAIL通过学习的奖励函数生成社会可接受的轨迹。

2.3 以目标为条件

目标条件性方法被认为是反向规划或通过规划进行预测，其中该方法在预测整个轨迹之前了解了代理的最终意图或目标。在[34]中，Rehder等人提出了一种基于粒子滤波的方法来建模目的地条件弹道预测，并使用基于显式Von Mises分布的概率框架进行预测。在后续工作中，[35]Rehder等人进一步提出了一种基于深度学习的目的地估计方法，以同时处理意图识别和轨迹预测问题。该方法利用全卷积神经网络（CNN）构造路径规划，对由递归混合密度网络（RMDN）提供的潜在目的地进行规划。虽然这两种方法都试图进行目的地条件预测，但由于训练和更新不稳定，全概率方法的训练效果较差。此外，他们忽略了场景中其他行人的存在，这是预测短期运动的关键，而仅仅考虑环境就忽略了短期运动。Rhinehart等人[36]提出了一种目标条件下的多智能体预测方法PrecG，该方法学习一种基于驾驶员行为意图的概率预测模型，例如前方、停车等。然而，他们的方法是为车辆轨迹预测而设计的，因此是基于语义目标状态的条件。在我们的工作中，我们建议利用目的地位置来预测行人的轨迹。

在[37 2019]中，Li等人提出了一个条件生成神经系统（CGNS），即之前在ETH/UCY数据集上建立的最新结果。他们建议使用变分散度最小化和软注意来预测可行的多模态轨迹分布。甚至最近，Bhattacharyya等人[38 2019]提出了一个条件流，提出了结构化序列预测的一般标准化流，并将其应用于轨迹预测问题。与我们的工作同时，Deo等人[39] 2020提出了P2TIRL，一种离散网格上基于最大熵强化学习的轨迹预测模块。这项工作[38]与[39]在斯坦福无人机数据集（SDD）和TrajNet[40]上分享了最先进的技术。然而，这些工作没有考虑到问题的人的方面，例如与其他代理的相互作用。在SDD和ETH/UCY数据集上，我们将我们提出的PECNet与上述三项工作进行了比较。

三、拟用方法

在这项工作中，我们的目标是在尊重社会规范的同时，通过对场景中所有人的共同推理来解决人类轨迹预测的任务。假设一个行人 $P^{k}$ 进入场景I。给定过去 $t_{p}$ 步的p的先前轨迹，把这些轨迹当做一系列的坐标 $T_{p}^{k}:=\{u^{k}\}_{i=1}^{t_{p}}=\{(x^{k},y^{k})\}_{i=1}^{t_{p}}$ ，该问题需要预测下一 $t_{f}$ 步， $P^{k}$ 在I上的未来位置， $T_{f}^{k}:=\{u^{k}\}_{i=t_{p}+1}^{t_{p}+t_{f}}=\{(x,y)\}_{i=t_{p}+1}^{t_{p}+t_{f}}$

如第1节所述，我们将问题分解为两个步骤。首先，我们建立 $P^{k}$ 的子目标模型，即 $P^{k}$ 的最后一个观测轨迹点， $G^{k}=u^{k}|_{t_{p}+t_{f}}$ ，作为 $P^{k}$ 倾向于走预定路线的表示。此子目标也称为轨迹的终点，即当前序列中行人期望的终点。然后在第二步中，我们联合考虑场景I中所有行人 $\{p^{k}\}_{k=1}^{\alpha }$ 的历史轨迹 $\{T_{p}^{k}\}_{k=1}^{\alpha }$ 及每个人估计的终点 $\{G^{k}\}_{k=1}^{\alpha }$ ，以预测符合社会要求的未来轨迹。在本节的其余部分中，我们详细描述了实现这一点的方法，使用端点估计VAE（变分自编码器）对未来终点G进行采样，并使用轨迹预测模块对采样的终点 $\hat{G}^{k}$ 进行预测 $T_{f}$ 。

先利用过去轨迹与预测的未来轨迹进行未来轨迹的饿预测

3.1 端点 VAE

我们建议将行人的偏好建模为子目标终点（预测分布） $G:=u_{t_{f}}=(x_{t_{f}},y_{t_{f}})$ ，这是行人 $P^{k}$ 最后一个观察到的轨迹点。首先，使用端点VAE根据 $P^{k}$ 的先前位置历史 $T_{i}$ 推断终点目标G的分布。

图2。PECNet的体系结构：PECNet使用过去的历史、Ti和地面真实端点Gc来训练用于多模态端点推断的VAE。地面真值端点表示为？而x表示采样端点 $\hat{G}_{c}$ 。采样的端点决定了多智能体多模态轨迹预测的社会池预测网络。红色连接表示仅在培训期间使用的零件。相同颜色的阴影表示使用社交池模块中的块对角社交掩码编码的时空邻居。更多细节见第3.1节。

如图2所示，我们提取了场景中所有行人 $P^{k}$ 的历史轨迹 $T_{i}^{k}$ 和地面真实端点 $G^{k}$ 。我们使用历史轨迹编码器 $E_{past}$ 独立地编码所有 $P^{k}$ 的过去轨迹 $T_{i}^{k}$ 。这就产生了 $E_{past}(T_{i})$ ，一种运动历史的表示。类似地，使用端点编码器 $E_{end}$ 对未来端点 $G^{k}$ 进行编码，以便为所有k独立地产生 $E_{end}(G^{k})$ 。这些表示被串联在一起并传递到潜在编码器 $E_{latent}$ 中，产生用于编码VAE的潜在变量z=N（µ，σ）的参数（µ，σ）。最后，我们从N（µ，σ）中采样可能的潜在未来端点，将其与过去上下文的 $E_{past}(T_{i})$ 连接起来，并使用潜在解码器 $D_{latent}$ 进行解码以产生我们预测的终点 $\hat{G}^{k}$ .由于地面真值 $G^{k}$ 属于未来，并且在测试时不可用，因此在评估期间，我们从 $N(0,\sigma _{t}I)$ 中抽取z，与 $E_{past}(T_{i})$ 连接（如训练中所做），然后使用学习的数据来估计未来 $\hat{G}^{k}$ 。.这个如图2所示，红色连接仅用于训练阶段，不用于评估阶段。

截断技巧：在[41]中，Brock等人介绍了“截断技巧”，作为BigGAN发生器生产的样品的精细度和多样性之间的一种权衡方法。在这项工作中，我们提出了一个类似的技巧，用于多模态轨迹预测的评估阶段，其中潜在端点抽样分布的方差根据多模态预测所允许的样本数（K）而改变。在需要少量激发的多模态预测的情况下，例如在计算限制下，仅允许少量样本（K=1、2或3），我们建议使用σT=1并截断±c√K−1处的样本分布。相反，在需要生成大量预测的情况下（例如K=20，基准的标准设置），我们建议使用σT>1而不进行截断。我们假设该程序允许简单地调整预测多样性，有利于不同K的总体性能，从而提供了一种在所有设置中实现良好性能的简单方法，而无需任何再培训。

3.2 端点条件轨迹预测

使用端点VAE对终点 $\hat{G}^{k}$ 的抽样估计，我们再次使用端点编码器Eend（在相同的前向过程中）来获得抽样端点 $E_{end}(\hat{G}_{k})$ 的编码。这与预测网络一起用于规划从 $T_{f}$ 开始到G的路径，从而预测未来路径。

请注意，另一种设计选择可能是，即在训练期间，也可以使用地面真值 $E_{end}(G^{k})$ 来预测未来的 $T_{f}$ 。这似乎也是合理的，因为它为下游的社交池和预测网络提供了更干净、噪音更小的信号，同时仍然对整个模块进行端到端的培训（因为通过 $E_{past}$ 进行了耦合）。然而，这样的选择将使端点VAE的训练（然后仅以KL发散和AWL损失进行训练，参见第3.3节）和社会统筹网络（然后仅以ATL损失进行训练，参见第3.3节）脱钩，从而导致经验上的较差表现。

采样的预测端点 $E_{end}(\hat{G}_{k})$ 与相应的 $E_{past}(T_{i})$ 进行连接（如第3.1节所示），并使用社交池掩码M为场景中的所有行人共同通过N轮社交池。社会池掩码M是α×α块对角矩阵,表示场景中所有个体 $\{p_{i}\}_{i=1}^{\alpha }$ 的社会邻居的。数学表示：

式中，F（.）表示观察到的轨迹的实际帧数。直观地说，M使用空间距离的接近阈值tdist定义每个行人pi的时空邻居，并确保时间重叠。因此，矩阵M编码关于不同轨迹的社会位置的关键信息，这些信息在基于注意力的集中中得到利用，如下所述。

社会池（共享）：考虑到连接的过去历史和采样的路径点表示，我们进行N轮社会共享，其中（i+1）轮共享根据非局部注意机制[42]递归更新上一轮的表示 $X_{k}^{(i)}$ ：

其中 $\{\theta ,\phi \}$ 是 $X_{k}$ 的编码器，用于映射到学习的潜在空间，其中 $p_{k}$ 和 $p_{j}$ 轨迹之间的表示相似性是使用嵌入的高斯公式为每一轮池计算的。社会掩蔽M的使用是逐点的，它只允许聚集在时空邻居上，掩盖了场景中的其他行人。最后，g是 $X_{k}$ 的变换编码器，用于与所有其他邻居的加权和。整个过程在重复N次后得到 $X_{k}^{(N)}$ ，这是每个行人的合并预测特征，其中包含有关场景中所有其他邻居的过去位置和未来目的地的信息。

然后将合并的特征 $X_{k}^{(N)}$ 通过预测网络 $P_{future}$ 得到我们对剩余轨迹 $\{u^{k}\}_{k=t_{p}+1}^{t_{p}+t_{f}}$ 的估计，该轨迹与采样端点 $\hat{G}$ 相连产生 $\hat{T}_{f}$ 。整个网络以下一小节中描述的损耗为终点进行训练。

3.3 损失函数

为了端到端地训练整个网络，我们使用损失函数，

其中KL散度项用于训练变分自动编码器，平均端点损失（AEL）训练Eend、Epast、Elatent和Dlatent，平均轨迹损失（ATL）训练整个模块。

四、实验

4.1 数据集

斯坦福无人机数据集：斯坦福无人机数据集[5]是鸟瞰图中人类轨迹预测的公认基准。这个数据集由20个场景组成，这些场景是用一架无人机从上到下的视角在大学校园里拍摄的，里面有几个移动的代理，比如人类和车辆。它由11000多个独特的行人组成，捕获了185000多个代理之间的交互，以及40000多个代理和场景之间的交互[5]。我们使用[29，31，39]和其他先前工作中使用的标准试验列车分割。

ETH/UCY：第二个是ETH[6]和UCY[7]数据集组，由五个不同的场景组成——ETH和酒店（来自ETH）以及大学、ZARA1和ZARA2（来自UCY）。所有场景都报告了行人在世界坐标中的位置，因此我们报告的结果以米为单位。这些场景是在无约束的环境中拍摄的，很少有物体阻挡行人的路径。因此，来自其他物理非动画实体的场景约束是最小的。对于基准测试，我们遵循常用的留一设定策略，即在四个场景中进行培训，在第五个场景中进行测试[29、31、37]。

4.2 实验细节

该模块所使用的子网络均为具有ReLU非线性的多层感知器。表4.1中提到了每个子网的网络结构。整个网络使用ADAM优化器进行端到端训练，所有实验的批大小为512，学习率为3×10−4。对于损失系数权重，我们设置λ1=λ2=1。我们对斯坦福无人机数据集使用N=3轮社交池，对ETH&UCY场景使用N=1轮社交池。使用社会掩蔽，我们在小批量中执行前向通行，而不是在单个前向通行中处理场景中的所有行人（避免记忆溢出），将行人的所有邻居约束在同一个小批量中。指标：对于预测评估，我们使用文献[25，27，29，37]中常用的平均位移误差（ADE）和最终位移误差（FDE）指标。ADE是预测值与未来地面真值之间的平均距离，FDE是最后一个观测点预测值与未来地面真值之间的距离。数学公式：

式中，uj，ˆuj分别是地面真实值和我们在未来时间步长j处估计的行人位置。

基线：我们将PECNet与几个已发布的基线进行比较，包括下面简要介绍的先前最先进的方法。

Social-GAN（S-GAN）[29]：Gupta等人提出了一种多模态的人体轨迹预测GAN，通过训练具有多样性损失的GAN来鼓励多样性。

SoPhie[31]：Sadeghian等人提出了一种利用对场景中的社会和身体约束的关注来产生类人运动的方法。

CGNS[37]：Li等人提出了一种条件生成神经系统（CGNS），它利用条件潜在空间学习和变分散度最小化来学习可行区域以产生轨迹。他们还在ETH/UCY数据集上建立了先前的最新结果。

DESIRE[28]：Lee等人提出了一种基于逆最优控制的轨迹规划方法，该方法使用一个用于预测轨迹的约束结构。

CF-VAE[38]：最近，Bhattacharyya等人提出的基于条件规范化流量的VAE进一步推动了SDD的发展。值得注意的是，他们的方法也不依赖于RGB场景图像。

P2TIRL[39]：Deo等人的一项并行工作提出了一种基于网格的最大熵逆强化学习策略的轨迹预测方法。它们与ADE/FDE性能中先前的最先进[38]密切相关。

SimAug[43]：最近，Liang等人的一项并行工作提出了使用额外的3D多视图模拟数据来进行新的摄像机视图自适应。[43]还改进了P2TIRL，性能接近PECNet的基本模型。但是，我们的最佳模型（具有池和截断）仍然可以获得更好的ADE/FDE性能。

Ours-TT：这代表了不使用截断技巧而对我们的方法的一种消蚀。换句话说，对于所有K设置，我们将σT设为相同的1。图5和表1显示了不同K的截断技巧烧蚀。

Ours-S-TT：这代表了对我们的方法的一种消蚀，而不使用社交池模块和截断技巧，即基本PECNet。我们设置σT=1和N=0作为社会统筹的轮数，并将这些表示直接传送到预测子网Pfuture。

4.3 定量结果

在本节中，我们将比较和讨论我们的方法在ADE和FDE度量上与上述基线的性能。

表1。将我们的方法与最近发布的几种多模式基线以及斯坦福无人机数据集上先前最先进的方法（用*表示）进行比较[5]。'-S'&'-TT'表示我们的方法在没有社会化池和截断技巧的情况下的破坏。我们在图5中报告了K=5和20以及其他几个K的像素结果。†表示并行工作。越低越好。

斯坦福无人机数据集：表1显示了我们提出的方法与先前基线和最新方法的对比结果。我们提出的方法在ADE和FDE指标上都比以前最先进的方法[38,39]具有更好的性能，显著提高了20.9%。即使不使用我们提出的社交池模型和截断技巧（OUR-S-TT），我们也取得了非常好的性能（10.56ade），强调了未来端点调节在轨迹预测中的重要性。

正如我们的S-TT和我们的TT在绩效上的差异所观察到的，社会统筹模块也起着至关重要的作用，将绩效提高了0.33%（2.1%）。请注意，虽然P2TIRL[39]和SimAug[43]都是并行工作，但我们将其方法的性能与表1中的实验综合性进行了比较。所有报告的结果平均为100个试验。

表2。各种先前公布的方法和最新方法（用*表示）在常用轨迹预测数据集上的定量结果。ADE和FDE在世界坐标系中均以米为单位。“Our-S-TT”表示在不使用社交池和截断技巧的情况下对我们的方法的删除。

ETH/UCY：表2显示了我们提出的方法在ETH/UCY场景上的评估结果。我们遵循K=20的遗漏评估协议，如CGNS[37]/Social GAN[29]。所有报告的数字都没有截断技巧。在这种情况下，我们也观察到，我们的方法优于以前提出的方法，包括以前最先进的方法[37]。我们将最先进的技术平均提高了40.8%，对酒店的影响最大（74.2%），对ETH的影响最小（12.9%）。此外，如果没有社会池和截断技巧（OUR-S-TT），性能仍然比现有技术高34.6%，这突出了PECNet中端点条件作用的有用性。

有条件的航路点位置和预言：为了进一步评估我们的模型，我们对未来的轨迹点设置条件，而不是我们称之为航路点的最后一个观测点。此外，为了将推断条件位置的错误与预测该位置路径的错误解耦，我们使用了目的地（端点）预言。目标预言机向模型提供条件位置的地面真值信息，模型用它来预测轨道的其余部分。所有的模型，不管有没有目标预言者，都是从零开始为每个条件位置训练的。

图4。条件航路点位置和预言：我们根据ADE和FDE度量的未来条件位置选择来评估所提出方法的性能。此外，我们评估了一个目标oracle版本的模型的性能，该模型接收到关于预测剩余轨迹的条件位置的完美信息。

参考图4，我们观察到了几个有趣且信息丰富的趋势，这些趋势支持我们先前的假设。（A）作为健全性检查，我们观察到，随着我们对未来头寸的进一步调整，Oracle模型和拟议模型的FDE在未来第7个头寸之后都有急剧下降的趋势。这是意料之中的，因为未来的观测点为最终观测点提供了更多的信息。（B） oracle和所提出的模型的ADE误差曲线都有相同的下降趋势，尽管斜率比FDE更平缓，因为预测其他点（特别是轨道中间的噪声点）的误差会降低梯度。

（C）有趣的是，我们的模型的ADE和FDE与Oracle模型在未来接近的点没有显著差异，两个模型中的误差在未来第七位之前大致相同。这表明，在未来中期之前，条件路径点对终点的预测能力并不显著，因此，使用我们的嘈杂猜测与先知的基本事实对其位置没有影响。

航路点预测误差：航路点位置误差是条件位置的位置预测与其地面真实位置（未来）之间的距离。参考图4，我们观察到一个有趣的趋势，在航路点误差，因为我们条件点进一步到未来。路径点预测误差在开始时增加，这是预期的，因为进入未来的点具有更高的方差。但是，在中间点（第7点）附近之后，误差会趋于平稳，然后甚至略有减小。这支持了我们的假设，即行人倾向于他们的目的地，对目的地施加他们的意愿。因此，预测最后观察到的航路点比中间的航路点允许更低的预测误差！简言之，这证实了这项工作的动机。

样本数（K）的影响：以前的所有工作都使用K=20个样本（DESIRE使用K=5除外）来评估ADE和FDE指标的多模态预测。参考图5，我们看到ADE和FDE随着时间的推移，随着K的增加，预期的下降趋势。此外，我们还观察到，我们提出的方法与以前的工作具有相同的误差，K要小得多。以前的最新技术使用K=20个样本实现了12.58[39]ADE，而PECNet在样本数的一半匹配K=10。这进一步支持了我们的假设，即对推断航路点的条件作用显著降低了多模态轨迹预测的建模复杂性，从而更好地估计了地面真实情况。

最后，当K变大（K→∞）时，我们观察到FDE随着样本数的增加逐渐接近于0，因为最终发现了地面真值Gc。然而，ADE误差仍然很大（6.49），因为预测轨迹的其余部分存在误差。这与图4中以最后一个观测点（即0 FDE误差）为条件的oracle的观测ADE（8.24）一致。

VAE的设计选择：我们还评估了我们的设计选择，即使用推断的未来路径点ˆGc来训练后续模式（社会统筹和预测），而不是使用基本真相Gc。如第3.2节所述，这也是对PECNet进行端到端培训的有效选择。根据经验，我们发现这样的设计达到了10.87 ADE和17.03 FDE。这比使用ˆGc更糟糕（∼8.8%），这促使我们选择使用ˆGc（第3.2节）。

截断技巧：图5显示了对经验选择的超参数c≈1.2的截断技巧的改进。正如预期的那样，小K值从截断中获得的收益最大，当K=1（∼24.7%）时，性能从22.85 ADE（48.8 FDE）提升到17.29 ADE（35.12 FDE）。

4.4 定性结果

在图6中，我们展示了PECNet预测的几个可视化结果。如图所示，PECNet在推断的端点上产生多个moda。在图7中，我们展示了几个符合社会的预测的动画。可视化结果表明，PECNet在产生最新结果的同时，还可以进行丰富的多模态多智能体预测。

五、结论

在这项工作中，我们提出PECNet，行人端点条件轨迹预测网络。我们表明，PECNet预测丰富多样的多模态社会顺应轨迹跨越各种场景。此外，我们还对我们的设计选择进行了广泛的烧蚀，例如端点调节位置、样本数量和训练信号的选择，以确定实现的性能增益。我们还介绍了一种用于轨迹预测的“截断技巧”，一种在无需再训练的情况下调整多样性以提高轨迹预测性能的简单方法。最后，我们在多个数据集上对PECNet进行了基准测试，包括Stanford Drone数据集[5]、ETH[6]&UCY[7]，所有这些数据集PECNet都达到了最先进的性能。