PECNet翻译

最新推荐文章于 2023-03-18 16:30:06 发布

zzzzz忠杰

最新推荐文章于 2023-03-18 16:30:06 发布

阅读量716

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/111308307

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

对于人类环境中的自动导航（例如，对于自动驾驶汽车和社交机器人）而言，具有多个社交交互代理的人类轨迹预测至关重要。在这项工作中，我们提出了预测终点条件网络（PECNet），用于灵活的人体轨迹预测。 PECNet推断远处的轨迹终点，以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符合社会要求的轨迹。此外，我们提出了一个简单的“截断技巧”，以改善多样性和多模式轨迹预测性能。我们证明，PECNet在斯坦福无人机航迹预测基准上的最新性能提高了约20.9％，在ETH / UCY基准上的性能提高了约40.8％4。

简介

预测动态对象的运动是自动驾驶人员的核心问题，无论是人类，社交机器人[1]还是自动驾驶汽车[2]。在不断变化的环境中进行平滑且安全的路径规划时，确实需要通过预测来预测。人类中最常遇到的动态物体之一。
因此，预测人体运动对于导航，计划，人机交互以及其他关键机器人任务至关重要。但是，预测人类的运动会产生细微差别，因为人类不是根据牛顿定律进化的无生命实体[3]。相反，人类有意愿施加因果力来改变自己的动作，并在他们绕过障碍物以实现其目标时不断调整其路径[4]。这个复杂的计划过程是部分内部的，因此使根据观测结果预测人类轨迹具有挑战性。因此，应考虑多个方面除了过去的移动历史外，还包括其他潜在的预定目标，场景中的其他移动主体以及社交行为模式。
在这项工作中，我们建议通过对中间随机目标（称为端点）建模来解决人体轨迹预测问题。我们假设三个独立的因素相互作用以塑造行人的轨迹。
首先，我们假设行人对他们的长期理想目的地有所了解。我们将此假设扩展到子轨迹，即行人具有一个或多个中间目的地，我们将其定义为局部轨迹的潜在终点。这些子目标可以更轻松地与过去的观察结果关联起来，以预测可能的下一步行动，并弄清潜在的未来轨迹。
第二，考虑到当前场景元素，行人计划一条轨迹以到达这些子目标之一。最终，当代理人执行计划时，会修改轨迹以考虑其他移动代理人，同时遵守社交互动规范。
根据上述直觉，我们建议将轨迹预测问题分解为两个子问题，这两个问题也可以激发我们提出的体系结构（图1）。首先，考虑到场景中人类的先前轨迹，我们建议估计潜在的信念分布，以模拟行人的可能终点。使用这种估计的潜在分布，我们根据每个行人观察到的轨迹对它们的合理端点进行采样。然后，预测一条符合社会标准的未来轨迹，不仅以行人及其近邻的历史（观察到的轨迹）为条件，而且还以每个人的估计终点为条件。
总之，我们在这项工作中的贡献是三方面的。首先，我们提出了一种符合社会标准，以端点为条件的变分自动编码器，该编码器紧密模仿了多模式人类轨迹规划过程。其次，我们提出了一个新颖的基于自我关注的社交池层，该层概括了先前提出的社交池机制。第三，我们证明了我们的模型可以预测稳定且合理的中间目标，从而能够在多个轨迹预测基准上设定最新的技术水平，在SDD [5]和ETH [6]上分别提高20.9％和40.8％。 UCY [7]。

相关工作

以前有许多关于如何预测行人的轨迹并预测其行为的研究[8]。一些先前的工作建议从观察到的运动轨迹[9-18]中学习统计行为模式，以用于将来的轨迹预测。从那时起，许多研究已经开发出模型来解释可能影响轨迹的代理交互，特别是通过场景和/或社交信息。最近，人们非常关注多模态轨迹预测，以捕捉过去给出的各种可能的未来轨迹。也有一些关于目标导向路径规划的研究，该研究在预测路径时会考虑行人的目标。
基于上下文的预测
先前的许多研究已将环境语义（例如人行横道，道路或交通信号灯）引入了他们提出的轨迹预测方案。 Kitani等。 [19]通过马尔可夫决策过程（MDP）编码代理空间相互作用，以预测代理的潜在轨迹。 Ballan等。 [20]利用动态贝叶斯网络从训练数据构建运动依赖性和模式，并将训练后的知识转移到测试数据。随着深度神经网络的巨大成功，递归神经网络（RNN）已成为用于序列学习的流行建模方法。 Kim等。 [21]训练结合多个长期短期记忆（LSTM）单元的RNN，以预测附近汽车的位置。这些方法结合了来自场景RGB图像的丰富环境提示，用于行人的轨迹预测。
周围动态主体的行为也是上下文轨迹预测的关键提示。从人群的角度研究人类行为模型，即行人如何与其他行人互动，也已在人类轨迹预测文献中得到广泛研究。传统方法使用社会力量[22-25]来利用吸引力吸引行人的轨迹，以达到他们的目标，同时避免在道路上与排斥力相撞。
这些方法需要手工制定的规则和功能，这些规则和功能通常很复杂，并且对于复杂的高级行为建模而言不够鲁棒。
最近，许多研究将长期短期记忆（LSTM [26]）网络应用于具有社交线索的轨迹预测模型。 Alahi等。 [27]提出了一种社交LSTM，它学会了预测关节相互作用的轨迹。每行人由单个LSTM建模，LSTM与附近的单个LSTM连接，以共享来自隐藏状态的信息。
多峰轨迹预测
[28，29]中，作者提出了考虑人类路径固有的多峰性质的重要性，即考虑到行人的过去历史，他们可以采取许多可能的未来路径。重点转移到计划未来的多条路，导致许多近期工作将多模态纳入其轨迹预测模型。 Lee等。 [28]提出了一个名为DESIRE的条件变分自动编码器（CVAE），以在基于采样的逆向最优控制（IOC）方案中基于代理交互，场景语义和预期奖励函数来生成多个未来轨迹。在[29]中，Gupta等人。提出了一种基于对抗性生成网络（GAN）[30]的框架，该框架具有一种新颖的社交集合机制，可以根据社交规范生成多个未来的轨迹。在[31]中，Sadeghian等人。还提出了一个名为SoPhie的基于GAN的框架，该框架利用了场景中所有代理的路径历史以及场景上下文信息。 SoPhie采用了具有物理注意力的社交注意力机制，该机制有助于通过代理交互学习社交信息。但是，这些具有社会意识的方法并未考虑行人的最终目标，而最终目标在塑造他们在场景中的运动方面起着关键作用。一些作品也通过逆强化学习（IRL）设置来进行轨迹预测。 Zou等。 [32]将生成的对抗模仿学习（GAIL）[33]应用于轨迹预测，称为社交意识的GAIL（SA-GAIL）。利用IRL，作者通过将人作为具有状态（过去轨迹历史）和动作（未来位置）的主体进行建模，从而更加紧密地模拟了人类的决策过程。
目标条件
有条件通过计划在预测完整轨迹之前学习代理的最终意图或目标的方法，可以将目标条件化方法视为反向计划或预测。在[34]中，Rehder等人。提出了一种基于粒子滤波的方法对目的地条件轨迹预测进行建模，并使用基于显式Von-Mises分布的概率框架进行预测。
后来在后续工作中，[35] Rehder等人。进一步提出了一种基于深度学习的目的地估计方法，以同时解决意图识别和轨迹预测。该方法使用完全卷积神经网络（CNN）构造通向某个潜在目的地的路径规划，该路径规划由递归混合物密度网络（RMDN）提供。
尽管这两种方法都尝试进行目的地条件的预测，但由于训练和更新不稳定，所以完全概率的方法训练效果较差。此外，他们忽略了场景中其他行人的存在，这对于预测仅考虑环境而错过的短期运动至关重要。 Rhinehart等。 [36]提出了一种目标条件的多主体一种名为PRECOG的预测方法，该方法学习基于驾驶员前进，停车等行动意图的概率预测模型。但是，他们的方法是为车辆轨迹预测以及语义目标状态的条件而设计的。在我们的工作中，我们建议将目的地位置用于行人轨迹预测。
在[37]中，Li等。假设条件生成神经系统（CGNS），则在ETH / UCY数据集上先前建立的最新结果。他们建议使用带有软注意的变分散度最小化来预测可行的多模态轨迹分布。最近，Bhattacharyya等人。 [38]提出了一种条件流VAE，其提出了用于结构化序列预测的通用归一化流并将其应用于轨迹预测问题。与我们的工作同时进行的是Deo等。 [39]提出了P2TIRL，一种基于最大熵增强学习的离散网格上的轨迹预测模块。这项工作[38]与TrajNet [40]分开的斯坦福无人机数据集（SDD）上的[39]具有最新技术。但是，这些工作未能考虑问题的人为因素，例如与其他代理的交互。我们在SDD和ETH / UCY数据集上将我们提出的PECNet与以上所有三项工作进行了比较。

提议的方法

在这项工作中，我们旨在通过共同推理场景中的所有人类，同时遵守社会规范来解决人类轨迹预测的任务。
假设行人pk进入场景I。给定ptptp = {（xk，yk）} i = 1的先前轨迹，对于过去的tp步长，作为一系列坐标T pk：= {uk} i = 1 预测下一个tf步骤tp + tftp + tf T fk的pk在I上的未来位置：= {uk} i = t = {（x，y）} i = t。
p +1 p +1如第1节所述，我们将问题分为两个菊花链步骤。首先，我们对p k的子目标进行建模，即对p k的最后观察到的轨迹点说，G k = u k |。 t p + t f表示p k偏向其预定路径的偏好。该子目标，也称为轨迹的终点，即行人当前序列所需的终点。
然后在第二步中，我们共同考虑场景中所有行人{pk}α的过去历史{T pk}αk = 1和他们的估计端点{G k}αk = 1 k = 1 k进行预测符合社会要求的未来轨迹T f。在本节的其余部分中，我们将详细描述实现此目标的方法，使用端点估计VAE对未来端点G进行采样，并使用轨迹预测模块使用采样的端点Ĝk来预测T f。
3.1端点VAE
我们建议将行人的偏爱建模为次目标端点G：= u t f =（x t f，y t f），它是行人p k的最后一个观察到的轨迹点。首先，我们使用端点VAE根据p k的先前位置历史T i推断G的分布。
如图2所示，我们提取了场景中所有行人p k的先前历史T i k和地面真值端点G k。我们使用过去轨迹编码器E past对所有p k的过去轨迹T i k进行独立编码。这使我们过去了E（T i），代表了运动历史。类似地，将来端点G k用端点编码器E end编码，以独立地为所有k产生E end（G k）。这些表示被串联在一起，并传递到潜伏编码器E latent，后者产生用于编码VAE的潜伏变量z = N（μ，σ）的参数（μ，σ）。最后，我们从N（μ，σ）采样可能的潜在未来端点，将其与E过去（T i）关联以用于过去上下文，并使用潜在解码器D潜在进行解码以得出our k的猜测。
由于地面真值G k属于未来，并且在测试时不可用，因此在评估过程中，我们从N（0，σTI）采样z，与E过去（T i）串联（在训练中完成），然后使用学会了潜在地估计未来k。
这在图2中进行了说明，其中红色连接仅在训练中使用，而不在评估阶段使用。
截断技巧：在[41]中，Brock等人。介绍“截断技巧”，作为在BigGAN中生成器生成的样本的保真度和各种样本之间权衡的一种方法。在这项工作中，我们提出了一种多模式轨迹预测评估阶段的类似技巧，其中根据多模式预测所允许的样本数（K），更改潜在的端点采样分布。在需要很少镜头多模态预测的情况下（例如，在计算约束下，仅允许少量样本（K = 1、2或3）），我们建议使用σT = 1并√将采样分布截断为± c K − 1.相反，在要生成大量预测的情况下（例如，K = 20，这是基准的标准设置），我们建议使用无截断的σT> 1。我们认为，此过程允许简单地调整预测分集，从而有利于针对不同K的整体性能，从而提供了一种无需任何重新训练即可在所有设置下实现良好性能的简单方法。
3.2端点条件的轨迹预测
使用来自端点VAE的端点sample的采样估计，我们再次（在同一前向通过范围内）使用端点编码器E end获得采样端点E end的编码（）。这与预测网络一起使用，以规划从G开始的路径T f，从而预测未来的路径。
注意，另一种设计选择可能是，即使在训练期间，也要使用地面真实性E end（G k）来预测未来T f。这似乎也很合理，因为它为下游社交汇总和预测网络提供了更干净，噪声更低的信号，同时仍在端到端地训练整个模块（由于通过E过去耦合）。但是，这样的选择会使Endpoint VAE的训练（然后仅针对KL Divergence和AWL损失进行训练，请参阅第3.3节）与社交池网络（然后仅对ATL损失进行训练，请参阅3.3）进行耦合，从而导致性能降低根据经验。
然后将采样的端点的表示形式E end（Ĝk）与相应的E past（T i）串联在一起（如第3.1节所述），并使用N个社交池掩码M对所有场景中的行人共同进行N轮社交池。
社交池遮罩M是α×α块对角矩阵，表示场景中所有{p i}αi = 1的行人的社交邻居。数学上
公式（1）
其中F（。）表示观察到轨迹的实际帧号。
直观地，M使用距离阈值t dist定义每个行人pi的时空邻居，以确保空间上的距离并确保时间重叠。因此，矩阵M编码关于不同轨迹的社会局部性的关键信息，如下所述，该关键信息在基于注意力的汇集中得到利用。
社会统筹：给定过去的历史记录和采样的航点（1）表示X k =（E过去（T pk），E结束（Ĝk）），我们进行了N轮社会统筹（i），其中（i + 1）第轮池递归更新表示X k
公式（2）
其中{θ，φ}是X k的编码器，映射到学习的潜在空间，其中对于每个回合，使用嵌入式高斯exp（φ（X k）Tθ（X j））计算pi和pj轨迹之间的表示相似度池。社交遮罩M是逐点使用的，仅允许在时空邻居上池化，从而掩盖场景中的其他行人。最后，g是用于X k的变换编码器，用于与所有其他邻居的加权和。整个（N）过程在重复N次之后得出X k，这是每个行人的合并预测特征，其中包含有关场景中所有其他邻居的过去位置和未来目的地的信息。
我们提出的社会统筹是一种使用非本地注意力从邻居中提取相关信息的新颖方法。拟议的社会非本地汇集（S-NL）方法是不变的行人指数，作为解决社会汇集任务的有用归纳偏差。此外，我们认为这种学习型社会共享的方法比先前提出的方法（例如最大池）[29]，基于排序的共享，对社交邻居的错误识别（例如，错误指定的距离（t dist）阈值）更鲁棒。 [31]或基于刚性网格的合并[27]，因为基于学习的方法可以忽略社交蒙版M中的虚假信号。
（N）然后将合并的特征X k通过预测网络t p + t f P future，以得出我们对剩余轨迹{u k} k = t的估计，这些估计与采样端点Ĝ产生+1连接。完整的网络经过端到端的培训，损失将在下一部分中描述。
损失函数
为了训练整个网络的端到端，我们使用损失功能
公式（3）

实验

数据集Stanford Drone数据集：Stanford Drone数据集[5]是鸟瞰人类轨迹预测的公认基准。数据集由20幅场景组成，这些场景是使用无人机在大学周围自上而下拍摄的校园里有一些动人的人，例如人和车辆。它由超过11个，000个唯一的行人组成，它们捕获了代理之间的185,000个交互以及代理与场景之间的40,000个交互[5]。我们使用[29，31，39]和其他先前工作中使用的标准测试序列拆分。
ETH / UCY：第二个是ETH [6]和UCY [7]数据集组，它由五个不同的场景组成-ETH＆HOTEL（来自ETH）和UNIV，ZARA1和ZARA2（来自UCY）。所有场景都报告了行人在世界坐标中的位置，因此我们报告的结果以米为单位。场景是在不受约束的环境中捕获的，几乎没有物体挡住行人路。因此，来自其他物理非动画实体的场景约束最小。对于基准测试，我们遵循一种常用的休假制定策略，即在四个场景上进行训练并在第五个场景上进行测试[29、31、37]。
实施细节
proNetwork Architecture构成模块中使用的所有子网络都是具有ReLU非线性的Perceptron。表4.1中提到了每个sub网络的Net过去的工作架构。
使用批量大小为训练整个网络到D潜在端以 E-VAE损失中的学习速率3×10 -4 P预测所有实验的。对于损耗系数权重，我们设置λ1 =λ2 =1。图3.所有网络的详细信息我们使用N = 3轮社交池-模块中使用的子网。
为Stanford Drone Dataset设置，对于ETH和UCY场景为N = 1。使用社交蒙版，我们以小批方式执行前向通行，而不是在单个前行通行中处理场景中的所有行人（以防止出现类似的内存溢出），从而将行人的所有邻居都限制在同一小批行中。
指标：对于预测评估，我们使用文献中常用的平均位移误差（ADE）和最终位移误差（FDE）指标[25，27，29，37]。 ADE是预测值与地面实况未来之间的平均2距离，而FDE是预测值与最后观测点的地面实况之间的2距离。数学上
公式（4）
其中，分别是地面真相和我们在未来时间步长j上行人的估计位置。
基准：我们将PECNet与几个已公布的基准进行了比较，包括下面简要介绍的以前的最新方法。
–社会GAN（S-GAN）[29]：Gupta等。提出了一种训练有多种损失以鼓励多样性的多模式人体轨迹预测GAN。
SoPhie [31]：Sadeghian等。提出GAN，利用场景中对社交和身体约束的关注来产生类似人的动作。
– CGNS [37]：Li等。提出了一个条件生成神经系统（CGNS），该系统使用条件隐性空间学习和变分散度最小化来学习可行的区域以产生轨迹。他们还在ETH / UCY数据集上建立了以前的最新结果。
– DESIRE [28]：Lee等。提出了一种基于逆最优控制的轨迹规划方法，该方法使用精化结构来预测轨迹。
– CF-VAE [38]：最近，由Bhattacharyya等人提出的基于条件归一化流的VAE。进一步推动SDD的最新发展。值得注意的是，他们的方法也并不依赖于RGB场景图像。
– P2TIRL [39]：Deo等人的并发工作。提出了一种使用基于网格的策略进行轨迹预测的方法，该策略具有最大熵反强化学习策略。它们与ADE / FDE性能方面的最新技术[38]紧密相关。
– SimAug [43]：最近，Liang等人的并发工作。提议对抗性地使用其他3D多视图模拟数据，以实现新颖的相机视图适应。 [43]也对P2TIRL进行了改进，其性能接近PECNet的基本模型。但是，我们最好的模型（具有合并和截断功能）仍然可以实现更好的ADE / FDE性能。
– Ours-TT：这表示不使用截断技巧的情况下对我们方法的消融。换句话说，对于所有K设置，我们将σT设置为相同的1。
图5和表1显示了具有不同K的截断技巧消融。
– Ours-S-TT：这代表了我们方法的消融，没有同时使用社交池模块和截断技巧，即基础PECNet。
我们为社交池的回合数设置σT = 1且N = 0，并将表示直接发送到预测子网络P future。
定量结果
在本节中，我们将根据ADE和FDE指标的上述基准比较并讨论我们方法的性能。
斯坦福无人机数据集：表1显示了我们针对先前基准和最新方法提出的方法的结果。与以前的最新技术相比，我们提出的方法具有更高的性能[38， 39]上的ADE和FDE指标均增长了20.9％。即使不使用建议的社交共享模块和截断技巧（OUR-S-TT），我们也可以达到很好的性能（10.56 ADE），突显了未来终点条件在轨迹预测中的重要性。

结论

在这项工作中，我们提出了PECNet，一个行人终点条件轨迹预测网络。我们表明，PECNet可以预测各种场景下丰富多样的多模式社会合规轨迹。此外，我们在设计选择上进行了广泛的消融，例如端点调节位置，样本数量和训练信号的选择，以查明已实现的性能提升。我们还为轨迹预测引入了“截断技巧”，这是一种无需调整即可调整轨迹预测性能多样性的简单方法。最后，我们跨多个数据集对PECNet进行基准测试，包括

zzzzz忠杰

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PECNet翻译

摘要对于人类环境中的自动导航（例如，对于自动驾驶汽车和社交机器人）而言，具有多个社交交互代理的人类轨迹预测至关重要。在这项工作中，我们提出了预测终点条件网络（PECNet），用于灵活的人体轨迹预测。 PECNet推断远处的轨迹终点，以协助进行远程多模态轨迹预测。新颖的非本地社交池层使PECNet能够推断出各种但符合社会要求的轨迹。此外，我们提出了一个简单的“截断技巧”，以改善多样性和多模式轨迹预测性能。我们证明，PECNet在斯坦福无人机航迹预测基准上的最新性能提高了约20.9％，在ETH /
复制链接

扫一扫

专栏目录