Trajnet++翻译

摘要

在过去的几十年里,人类轨迹预测因其众多的实际应用而成为一个活跃的研究领域:疏散情况分析、智能交通系统的部署、交通运营等等。 早期的作品基于领域知识手工制作了这种表示。 然而,拥挤环境中的社交互动不仅多种多样,而且往往很微妙。 最近,深度学习方法的表现优于手工制作的方法,因为它们以更通用的数据驱动方式了解人与人之间的交互。 在这项工作中,我们对现有的基于深度学习的社交互动建模方法进行了深入分析。 我们提出了两种基于知识的数据驱动方法来有效地捕捉这些社交互动。 为了客观地比较这些基于交互的预测模型的性能,我们开发了一个大规模的以交互为中心的基准 TrajNet++,这是人类轨迹预测领域的一个重要但缺失的组件。 我们提出了新的性能指标,用于评估模型输出社会可接受轨迹的能力。 TrajNet++ 上的实验验证了对我们提出的指标的需求,我们的方法在现实世界和合成数据集上都优于竞争基准。

引言

人类拥有在社会环境中导航的自然能力。 换句话说,我们已经了解了人类运动的社交礼仪,例如尊重个人空间、让路、避免穿过属于同一群体的人。 我们的社交互动会导致人群中出现各种复杂的模式形成现象,例如,出现具有统一步行方向的行人车道,瓶颈处的行人流振荡。
对社交互动进行建模从而预测现实世界环境中人群动态的能力对于广泛的应用非常有价值:基础设施设计 [1]、[2]、[3]、交通运营 [4]、人群异常检测系统 [5],疏散情况分析 [6], [7], [8], [9], [10], 智能交通系统的部署 [11], [12], [13], [14] 和最近帮助 在构建我们建筑环境的数字孪生的广泛追求中。 然而,社交互动建模是一项极具挑战性的任务,因为没有一套固定的规则来控制人体运动。 与学习人类社会互动密切相关的一项任务是预测周围人的运动,这符合共同的社会规范。 我们将这种预测人体运动的任务称为人体轨迹预测。
在正式定义人类轨迹预测之前,我们引入了轨迹和场景的概念。 我们定义一个轨迹作为行人运动状态的时间曲线。 通常,这些状态是人的位置和速度。
但是,我们可以考虑更复杂的状态,例如身体姿势,以收集有关人的运动的更多信息。
我们将场景定义为多个人在社交环境中交互的轨迹的集合。 场景还可以包括影响人类轨迹的物理对象和不可导航区域,例如墙壁、门和电梯。 此外,在需要时,我们将场景中感兴趣的特定行人称为主要行人。 我们将人类轨迹预测定义如下:
给定场景中所有人的过去轨迹,预测符合社会规范的未来轨迹。
人体轨迹预测主要是一项序列建模任务。 序列建模任务的典型挑战是(1)编码观察序列:我们需要学习有效地对过去轨迹中的长期依赖性进行建模,(2)多模态:给定场景的历史,多个未来(预测) 是合理的。 除此之外,对于人类轨迹预测,还有两个关键挑战使其区别于其他序列预测任务,例如语言建模、天气预报和股市预测(见图 1):
• 社交互动的存在: 一个人的轨迹受到他/她周围其他人的运动的影响。 建模如何观察一个序列影响另一个序列的预测是一个良好的人类轨迹预测模型的基本要求。
• 物理上可接受的输出: 一个好的人类轨迹预测模型应该提供物理上可接受的输出,例如,模型预测不应发生碰撞。 量化模型预测的物理可行性对于安全关键应用至关重要。
我们的目标是将观察到的场景编码为一个表示,该表示捕获预测人体运动所需的所有信息。 为了专注于学习影响社会运动的社会互动,我们假设我们的场景中不存在任何物理约束。 未来的轨迹也可能受到人类长期目标的影响,这些目标不能总是被观察或推断出来。 因此,我们专注于短期人类轨迹预测(接下来的 5 秒)。
随着 Social LSTM [15] 的成功,文献中提出了多种基于神经网络 (NN) 的模块来模拟社交互动。 在这项工作中,我们明确关注这些交互模块的设计,而不是整个预测模型。 设计这些交互模块的挑战在于处理可变数量的邻居,并对它们如何共同影响一个人的未来轨迹进行建模。 我们提出了一个包含大多数现有交互模块设计的高级管道。 基于我们的分类法,我们提出了两个新的模块,将领域知识整合到基于 NN 的管道中。 因此,这些模块可以更好地学习社交礼仪,例如避免碰撞和领导跟随者。 基于神经网络的轨迹预测模型中一个长期存在的问题是探索有助于解释模型决策的技术。 在这项工作中,我们建议利用逐层相关性传播 (LRP) [16] 来解释我们的轨迹预测模型的决策。
据我们所知,这是在回归设置中应用 LRP 以推断序列间(邻居)对模型输出的影响的第一项工作。
为了证明轨迹预测模型的有效性,需要有方法在高质量数据集上与其他预测基线进行客观比较。
然而,目前的方法已经在可用数据的不同子集上进行了评估,而没有对发生社交互动的场景进行适当的采样。 作为我们的最后贡献,我们介绍了 TrajNet++,这是一个大规模的以交互为中心的轨迹预测基准,包括显式代理场景。 我们的基准通过定义轨迹分类的层次结构来提供正确的轨迹索引。
此外,我们提供了一个广泛的评估系统来测试收集的方法以进行公平比较。 在我们的评估中,我们超越了基于距离的标准指标,并引入了新的指标来衡量模型在人群中模拟行人行为的能力。 与各种交互编码器设计相比,我们证明了我们提出的基于领域知识的基线在 TrajNet++ 上的有效性。 此外,我们还说明了如何在实际场景中使用 LRP 来解释我们提出的模型架构的决策。
总而言之,我们的主要贡献如下:
1)我们对基于 NN 的交互编码器的现有设计及其源代码进行了深入分析。 我们通过将逐层相关性传播扩展到轨迹预测的回归设置来解释轨迹预测模型的决策。
2)我们提出了两种由领域知识驱动的简单而新颖的方法来捕捉社交互动。
3) 我们提出了 TrajNet++,这是一个大规模的以交互为中心的轨迹预测基准,具有量化模型物理可行性的新颖评估指标。

相关工作

在拥挤的环境中找到编码人类社交互动的理想表示是一项极具挑战性的任务。 社交互动不仅多种多样,而且往往很微妙。 在这项工作中,我们考虑了行人人群的微观模型,其中集体现象从许多人之间的复杂相互作用中出现(自组织效应)。 当前的人类轨迹预测工作可以分为学习人与人(社会)交互或人与空间(物理)交互或两者。
我们的工作专注于捕捉社交互动的基于深度学习的模型。 在本节中,我们回顾了为模拟人与人的交互以获得社会表征所做的工作。
特别关注行人路径预测问题,Helbing 和 Molnar [17] 提出了一种基于力的运动模型,具有吸引力(朝向一个人的目标和他/她的群体)和排斥力(远离不属于该群体的人) 一个人的群体和物理障碍),称为社会力模型,它捕捉社会和物理相互作用。 他们的开创性工作即使在现代行人数据集上也显示出有竞争力的结果,并且已经扩展到改进的轨迹预测 [18]、[19]、[20]、[21]、跟踪 [22]、[23]、[24] 和活动预测 [25]、[26]。 Burstedde 等人。 [27]利用细胞自动机模型,另一种微观模型,预测行人运动。 在他们的模型中,环境被划分为均匀分布的网格,每个行人都有一个偏好矩阵来确定向相邻单元格的过渡。
偏好矩阵由行人自己的意图以及周围代理的位置决定。
与社会力量类似,元胞自动机模型多年来一直在扩展以改进轨迹预测 [28]。 模拟人体运动的另一个突出模型是互易速度障碍(RVO)[29],它保证安全和无振荡的运动,假设每个代理遵循相同的防撞推理。 社会互动建模已经从不同的角度进行了处理,例如离散选择框架 [30]、连续体动力学 [31] 和高斯过程 [32]、[33]、[34]。 罗比凯等人。
[35] 定义了社会敏感性,以将人类运动表征为不同的导航风格。 阿拉希等人。 [36] 定义了 Social Affinity Maps,以将破碎或未观察到的轨迹与预测行人目的地联系起来。 易等人。 [37]利用人群分组作为更好预测轨迹的线索。 然而,所有这些方法都使用基于相对距离和特定规则的手工函数来模拟交互。 这些功能在对复杂的交互进行建模时,不仅强加了先验,而且还具有有限的能力。 最近,基于神经网络 (NN) 的方法以数据驱动的方式推断交互已被证明优于上述工作。
受到循环神经网络 (RNN) 在不同序列预测任务中的应用的启发 [38]、[39]、[40]、[41],Alahi 等人。 [15] 提出了 Social LSTM,这是第一个基于 NN 的人类轨迹预测模型。 Social LSTM 是一个 LSTM [42] 网络,具有新颖的社交池化层,用于捕捉附近行人的社交互动。 包含社交互动的 RNN 允许预测在更遥远的未来可能发生的互动。 社交池模块已扩展为包含物理空间上下文 [43]、[44]、[45]、[46]、[47]、[48] 并且已经提出了基于 NN 的交互模块的各种其他设计 [49 ], [50], [51], [52], [53], [54], [55], [56], [57], [58], [59], [60], [61]。 菲佛等人。 [49] 提出了一种用于高效计算的角度池化网格。 石等人。 [50] 提出了一个椭圆池网格,沿着行人的运动方向放置,更多地关注前面的行人。
比萨尼奥等人。 [51] 建议在社会汇集期间只考虑不属于同一群体的行人。在模拟社交互动时,Hasan 等人。 [59], [60] 基于领域知识,仅考虑注意力的视觉截锥体中的行人 [62]。 古普塔等人。 [52] 建议通过使用置换不变(对称)最大池化函数来编码邻域信息。 张等人。 [53] 建议使用消息传递算法来改进 LSTM 单元的状态。 朱等人。 [54] 提出了一种新的星形拓扑来模拟相互作用。 中心枢纽维护每个行人可以查询的整个场景的信息。 伊万诺维奇等人。 [55] 和 Salzmann 等人。 [61] 提出对相邻状态进行求和池化,并将其传递给基于 LSTM 的编码器以获得交互向量。 梁等人。
[56] 提出利用从行人之间的空间距离获得的几何关系来推导交互表示。 [57], [58] 建议将𝑘最近邻的相对位置和相对速度直接输入到 MLP 以获得交互向量。 许多作品 [63], [64], [65], [66], [67], [68], [69], [70], [71], [72], [73], [74], [75]、[76]、[77] 提出了基于注意力机制[78]、[79] 的交互模块设计,以识别影响感兴趣人轨迹的邻居。 注意力权重是根据领域知识(例如,欧几里得距离)学习或手工制作的。 对于捕获社会和物理交互的所有人类预测方法的广泛调查,可以参考 Rudenko 等人。 [80]。

问题描述

我们的目标是预测场景中所有行人的未来轨迹。 网络以 X = {𝑋1, 𝑋2, … 表示的场景中所有人的轨迹作为输入。 . . , 𝑋𝑛} 而我们的任务是预测相应的未来轨迹 Y = {𝑌1, 𝑌2, . . . , 𝑌𝑛}。 行人 𝑖 在时间步长 𝑡 的位置和速度分别用 x 𝑡 𝑖 = (𝑥 𝑡 𝑖 , 𝑦𝑡 𝑖 ) 和 v 𝑡 𝑖 表示。 我们在时间步长 𝑡 = 1, 处接收所有行人的位置。 . . , 𝑇𝑜𝑏𝑠 并且想要预测从时间步长 𝑡 = 𝑇𝑜𝑏𝑠+1 到 𝑇𝑝𝑟 𝑒𝑑 的未来头寸。 我们使用 Yˆ 表示我们的预测。
在时间步 𝑡,我们用 s 𝑡 𝑖 表示行人 𝑖 的状态。
状态可以指人的不同属性,例如位置与速度的连接(s 𝑡 𝑖 = [x 𝑡 𝑖 , v 𝑡 𝑖 ])。 问题陈述可以扩展为在每个时间步将更多属性作为输入,例如身体姿势,以及预测 𝑘 最可能的未来轨迹。

方法

用于预测人体运动的全局数据驱动管道如图 2 所示。它包括运动编码模块、交互模块和解码器模块。 在高层次上,运动编码模块负责对行人过去的运动进行编码。 交互模块学习捕捉行人之间的社交互动。
运动编码模块和交互模块不一定是相互排斥的。 交互模块的输出是场景的社交表征。
社交表示被传递到解码器模块以根据解码器架构预测单个轨迹或轨迹分布。 由于我们的基准 TrajNet++ 专注于以交互为中心的场景,因此在这项工作中,我们专注于研究交互模块的设计选择
A. 交互模块
人类有能力通过遵循不成文的社交规则在复杂、拥挤的环境中轻松导航,这会导致社交互动。 近年来,通过设计新颖的交互模块有效地捕捉了这些社交互动。 在本节中,我们根据其底层组件对文献中研究的不同数据驱动交互编码器进行了广泛的分类。 我们展示了这些设计中的大多数如何属于我们的分类。 在此之后,在实验部分,我们凭经验分析每个组件的有效性,并为设计改进的交互模块提供建议。
现有的设计可以大致分为(1)基于网格和(2)基于非网格。 我们现在详细讨论这些交互编码器的不同组件。
1) 基于网格的交互模型: 在基于网格的模型中,交互模块将围绕感兴趣的行人构建的局部网格作为输入。 网格内的每个单元格表示相对于感兴趣的行人的特定空间位置。 基于网格的模型的设计基于邻居输入状态表示有很大不同。
邻居输入状态: 考虑一个围绕主要行人的 𝑁𝑜 × 𝑁𝑜 网格,其中每个单元格包含有关位于相应位置的邻居的信息。 现有设计以两种主要形式提供邻居的信息:(a)占用池[15],[45],其中网格中的每个单元格表示邻居的存在(见图3a)(b)社会池[15] , [45], [47], [51], [43], [48], [44] 其中每个单元格都包含邻居的整个过去历史,例如由邻居的 LSTM 隐藏状态表示(参见 图 3c)。 使用 MLP 嵌入获得的网格以获得交互向量 𝑝 𝑡 𝑖 。
定向池在这项工作中,基于我们的领域知识,我们建议将相应网格单元中每个邻居的相对速度作为输入。 当人类在拥挤的环境中导航时,除了邻居的相对位置外,他们自然倾向于关注邻居的速度。 对于相同的位置配置,邻居的相对速度导致了leaderfollower和碰撞避免的概念,即当邻居在前面并沿相同方向行走时,一个人表现出leaderfollower并加速,而相同的位置配置导致减速时 邻居向相反的方向移动。 因此,访问相对速度可以显着提高模型在防止碰撞方面的性能。
此外,由于现实世界运动摘要——的复杂性与噪声测量的可能性相结合,当前的社会汇集设计有时无法学习防止碰撞的重要概念。 一个原因在于模型经过训练以最小化位移误差 [15]、[67] 而不是碰撞这一事实。 这些模型有望隐含地学习避免碰撞的概念。
通过明确关注相对速度配置,我们可以获得对交互编码器设计的更多领域知识驱动控制。 当模型明确只关注相对速度配置(而不是抽象的隐藏状态配置)时,这足以学习领导者-跟随者和避免碰撞的概念,由此产生的简单设计有可能输出更安全的预测。 此外,定向池设计在实时场景中部署的计算速度更快(与 𝑁×𝑁×𝐻𝑑𝑖𝑚 相比,𝑁×𝑁×2,其中 𝐻𝑑𝑖𝑚 是隐藏状态的维度)。
有人可能还会争辩说,只考虑主要行人前面的邻居,如 [62] 中提出的那样。 我们将在实验部分演示,定向池隐式地学习了这种仅关注主要行人视野中的邻居的概念。
2)基于非网格的交互模型: 顾名思义,基于非网格的模块以无网格的方式捕捉社交互动。 设计非基于网格的模型的挑战在于(1)处理可变数量的邻居和(2)聚合多个邻居的状态信息以获得交互向量 𝑝 𝑖 𝑡 。 如图 4 所示,这些模块的设计选择可以基于四个因素进行分类:(a)邻居输入状态,(b)输入状态嵌入,(c)邻居信息聚合策略,以及(d)聚合向量嵌入。
邻居输入状态: 与基于网格的对应方法不同,基于非网格的方法不包含邻居相对于主要行人的空间位置的隐式概念。 因此,几乎所有现有的文献设计都将邻居的相对空间位置作为输入。 另一个流行的输入选择是相邻行人的隐藏状态 [67]、[52],因为隐藏状态能够对有关相应行人的运动历史的信息进行编码。 阿米里安等人[68] 使用以交互为中心的几何特征对相邻状态进行建模,例如代理之间的方位角和最近接近的距离 [81]。 伊万诺维奇等人。 [55] 将邻居的速度作为输入。 在这项工作中,我们认为输入邻居的相对速度是减少模型预测中碰撞的重要因素。
输入状态嵌入: 邻居的输入状态通常使用 MLP 嵌入。 然而,最近的作品 [82]、[70] 基于图神经网络 [83] 设计,使用 LSTM 嵌入了相对输入状态。 主要行人与其邻居的每个连接都使用不同的 LSTM 建模。 与一阶 MLP 不同,LSTM 有助于捕捉相对邻居状态的演变。
聚合策略: 非基于网格的模型最重要的挑战之一是找到理想的策略来聚合所有邻居的信息。 古普塔等人。 [52] 提出通过在相邻行人的 LSTM 隐藏状态上应用对称最大池函数来聚合交互信息。 伊万诺维奇等人。 [55] 和哈桑等人。 [59]利用对称和池函数。
大量作品利用注意力机制 [78]、[79] 来确定不同邻居在预测未来轨迹时的权重。 这些权重可以是手工制作的 [64] 或以数据驱动的方式学习 [67]、[66]、[68]。 可以多次应用注意力机制来对高阶空间交互进行建模。 常用的数据驱动注意力机制是为 Transformer 架构提出的设计 [78]。
聚合邻居信息的一个简单基线是连接邻居嵌入。 为了解决处理可变数量邻居的问题,我们通过基于定义的标准(例如,欧几里德距离)选择 top𝑘 邻居来研究连接方案的性能。 尽管很简单,但我们证明了串联策略的性能与其复杂的对应策略相当。
聚合向量嵌入:聚合的邻居向量通常通过 MLP 传递,但 Ivanovic 等人除外。 [55] 通过 LSTM 传递汇总的邻居信息,以获得交互向量 𝑝 𝑖 𝑡 。
我们认为,使用 LSTM 对聚合向量进行编码提供了在时域中对高阶交互进行建模的优势。 换句话说,交互模块学习交互表示如何随时间演变。
为简洁起见,交互模块使用基于其设计的首字母缩略词来表示。 首字母缩写词的形式为 P-Q-R-S,其中 P 表示模块的输入,Q 表示状态嵌入模块,R 表示信息聚合机制,S 表示聚合向量嵌入模块。 表 I 中提供了每个组件的选择。该表还说明了我们的分类如何涵盖文献中基于 NN 的交互模块的流行设计。
DirectConcat 相当于我们提出的 D-Grid,我们现在描述它的非网格对应物 DirectConcat。 基于网格的模型基于其设计,隐式地仅考虑围绕主要行人构建的网格内的那些邻居。 我们认为,对所有行人(甚至那些远方的行人)的交互进行建模会导致模型学习虚假相关性。
因此,我们建议只考虑最靠近主要行人的 top-𝑘 邻居。 我们将在实验部分证明,如果 𝑘 设置为较大的值,即如果模型考虑场景中的所有行人,则模型学习避免碰撞的能力会下降。聚合的邻居向量通常通过 MLP 传递,但 Ivanovic 等人除外。 [55] 通过 LSTM 传递汇总的邻居信息,以获得交互向量 𝑝 𝑖 𝑡 。
我们认为,使用 LSTM 对聚合向量进行编码提供了在时域中对高阶交互进行建模的优势。 换句话说,交互模块学习交互表示如何随时间演变。
为简洁起见,交互模块使用基于其设计的首字母缩略词来表示。 首字母缩写词的形式为 P-Q-R-S,其中 P 表示模块的输入,Q 表示状态嵌入模块,R 表示信息聚合机制,S 表示聚合向量嵌入模块。 表 I 中提供了每个组件的选择。该表还说明了我们的分类如何涵盖文献中基于 NN 的交互模块的流行设计。
DirectConcat 相当于我们提出的 D-Grid,我们现在描述它的非网格对应物 DirectConcat。 基于网格的模型基于其设计,隐式地仅考虑围绕主要行人构建的网格内的那些邻居。 我们认为,对所有行人(甚至那些远方的行人)的交互进行建模会导致模型学习虚假相关性。
因此,我们建议只考虑最靠近主要行人的 top-𝑘 邻居。 我们将在实验部分证明,如果 𝑘 设置为较大的值,即如果模型考虑场景中的所有行人,则模型学习避免碰撞的能力会下降。我们将交替使用 DirectConcat 和 D-MLP-ConC-LSTM 这两个术语。
B. 预测模型 我们现在描述预测模型的其余部分。 要声称交互模块的特定设计是优越的,必须保持其余预测模型组件不变。 只有这样我们才能确定是交互模块设计提高了性能,而不是额外添加的组件之一。 我们选择时间序列编码器作为 LSTM,因为它能够处理不同的输入长度并捕获长期依赖关系。 此外,大多数作品都将 LSTM 作为其基本的运动编码架构。
我们现在描述的其余架构对于上一节中描述的所有方法都是相同的。 人 𝑖 在时间步 𝑡 的状态 s 𝑡 𝑖 使用单层 MLP 嵌入,以获得状态嵌入 𝑒 𝑡 𝑖 。 我们使用他/她的速度来表示每个人的状态,因为将输入表示从绝对坐标切换到速度会增加序列编码器的泛化能力。 我们从交互编码器获得人 𝑖 的交互向量 𝑝 𝑡 𝑖。
我们将交互向量与速度嵌入连接起来,并将结果向量作为输入提供给序列编码模块。 在数学上,我们得到以下递归:
公式(1、2)
其中𝜙是嵌入函数,𝑊𝑒𝑚𝑏,𝑊𝑒𝑛𝑐𝑜𝑑𝑒𝑟 是要学习的权重。 权重在场景中的所有人之间共享。
然后使用 LSTM 在行人 𝑖 时间步 𝑡 的隐藏状态来预测时间步 𝑡 + 1 处的速度分布。 与 Graves [84] 类似,我们输出由均值 𝜇 𝑡 参数化的二元高斯分布 +1 𝑖 = (𝜇𝑥, 𝜇𝑦) 𝑡+1 𝑖 , 标准差 𝜎 𝑡+1 𝑖 = (𝜎𝑥, 𝜎𝑦) 𝑡+1 𝑖+1 相关系数:
公式(3)
其中 𝜙𝑑𝑒𝑐 是使用 MLP 建模的,而 𝑊𝑑𝑒𝑐 是学习的。
训练:通过最小化负对数似然(NLL)损失来学习预测模型的所有参数:
公式(4)
与通过最小化训练数据集中所有轨迹的 NLL 损失来训练模型的一般做法相反,我们仅最小化训练数据集中每个场景中主要行人(在下一节中定义)的损失。 我们将在实验部分演示此训练过程如何帮助模型更好地捕捉社交互动。
测试:在测试期间,直到时间步𝑇𝑜𝑏𝑠,我们提供所有行人的真实位置作为预测模型的输入。 从时间𝑇𝑜𝑏𝑠+1 到𝑇𝑝𝑟 𝑒𝑑,我们使用每个行人的预测位置(来自预测速度)作为预测模型的输入,并预测所有行人的未来轨迹。
1)等价于图神经网络:最近,图神经网络 (GNN) 在预测 7 种人体运动方面变得流行起来。 在 GNN 设置中,每个行人都表示为一个节点/顶点 𝑉𝑖,并且两个相互作用的行人通过一条边 𝐸𝑖 𝑗 连接。 𝑉𝑖 对关联行人的序列表示进行建模,边缘 𝐸𝑖 𝑗 根据关联行人之间的交互进行更新。
我们展示了基于动态交互的图神经网络和我们提出的基于 LSTM 的管道与 SX-Attn-MLP(其中 X ∈ {MLP, LSTM})交互编码方案之间的等效性,如图 5 所示。不失一般性 , 让行人𝑖 成为主要的行人。
顶点 𝑉𝑖 使用 LSTM 序列编码器建模。 Edge 𝐸𝑖 𝑗 将邻居的状态作为输入,并使用 MLP 或 LSTM(输入状态嵌入)随时间更新。
在每个时间步,使用注意力机制(聚合策略)聚合所有连接边的信息,在 GNN 文献中通常称为 GAT-pooling [85]。
最后,聚合向量可选地通过 MLP 以获得交互向量 𝑝𝑖,它是 𝑉𝑖​​ 的 LSTM 序列编码器的输入。 Social-BiGAT [67] 利用 S-MLP-Attn-MLP 设计,Social Attention [82] 利用 O-LSTM-Attn-MLP 设计,而最近,STAR [75] 利用 S-MLP-Attn-MLP 设计与 顶点 𝑉𝑖 的序列编码器是一个 Transformer [78]。
C. 解释轨迹预测模型 轨迹预测模型部署在许多安全关键应用程序中,例如自主系统。 在这种情况下,深入了解所谓的“黑盒”神经网络的决策变得非常重要。 文献中的一些作品试图解释 NN 决策背后的基本原理 [86]、[16]、[87]、[88]、[89]。 在这些技术中,逐层相关性传播 (LRP) 是可解释机器学习中最突出的方法之一。
LRP 将模型输出分数重新分配给每个输入变量,表明它们对输出的贡献程度。 LRP 通过应用于神经网络每一层的启发式传播规则,通过网络反向传播预测[16]。 这些传播规则基于局部守恒原则:任何较高层神经元接收到的净数量或相关性以相同的数量重新分配给下层神经元。 在数学上,如果𝑗和𝑘是连续两层神经元的索引,并用𝑅𝑗𝑘表示两个神经元之间流动的相关性,我们有等式:
公式(5、6)
通过在所有层上应用局部守恒原理,当反向传播回输入时,我们获得了输出分数的全局守恒。 最近,阿拉斯等人。
[90] 已经表明 LRP 的原理也可以应用于 LSTM。
LRP 主要在模型分类领域进行了探索,即输出是分类分数。 在这项工作中,当回归到下一个预测速度时,我们利用 LRP 来确定我们的模型关注的主要行人的邻居(通过输入池化图)和过去的速度(通过输入速度嵌入)。 我们通过反向传播预测速度的 x 分量𝑣𝑥 和 y 分量𝑣𝑦(vpred = (𝑣𝑥, 𝑣𝑦))并添加获得的输入相关性分数来实现这一点。 据我们所知,我们是第一个凭经验证明 LRP 在扩展到轨迹预测的回归任务时提供合理解释的工作。 此外,LRP 技术是通用的,可以应用于任何轨迹预测网络之上以分析其预测。

TRAJNET++:轨迹预测基准

在本节中,我们介绍 TrajNet++,我们以交互为中心的人类轨迹预测基准。 为了证明轨迹预测模型的有效性,标准做法是在标准基准上根据基线评估这些模型。 然而,目前的方法已经在可用数据的不同子集上进行了评估,而没有对发生社交互动的场景进行适当的采样。 换句话说,如果基准主要包括代理静态或线性移动的场景,则数据驱动的方法无法学习对代理代理交互进行建模。 因此,我们的基准主要包括发生社交互动的场景。 为此,我们提出了以下轨迹分类层次结构。
A. 轨迹分类
我们提供了详细的轨迹分类(图 8)。 这种详细的分类不仅可以帮助我们更好地为 TrajNet++ 数据集采样轨迹,还可以深入了解不同场景中的模型性能,即验证模型是否捕获了所有不同类型的交互。
为了帮助我们进行分类,我们引入了主要行人的概念作为我们对场景进行分类的参考行人。 每个场景都有一个主要的行人,我们要预测其运动。 我们将场景中的其他行人称为相邻行人。
我们详细解释了我们提出的轨迹分类层次结构(图 8)。 我们还在图 6 中提供了相同的示例场景
1)静态(类型 I):如果场景中主要行人的欧几里得位移小于特定阈值。
2)线性(类型II):如果主要行人的轨迹可以在扩展卡尔曼滤波器(EKF)的帮助下正确预测。 如果真实轨迹和预测轨迹之间的 FDE 小于特定阈值,则称 EKF 正确预测了轨迹。
其余场景被归类为“非线性”。 我们进一步将非线性场景分为交互(类型 III)和非交互(类型 IV)。
3)互动(类型III):这些对应于主要轨迹经历社交互动的场景。 为了与通常观察到的社会互动相一致的详细分类,我们将互动分为轨迹分为以下子类别(如图 7 所示)(a)Leader Follower [LF](Type IIIa):Leader Follower 现象是指跟随行人相对相同方向的趋势。 追随者倾向于根据领导者调节他/她的速度和方向。 如果主要行人是跟随者,我们将场景归类为领导者跟随者。
(b) 避撞[CA](类型IIIb):避撞现象是指避免来自相反方向的行人的倾向。 如果主要行人参与避免碰撞,我们将场景归类为碰撞避免。
© 组(类型 IIIc):如果主要行人在预测期间与他/她一侧的至少一个邻居保持紧密且大致恒定的距离,则称其为组的一部分。
(d) 其他交互(类型 IIId):主要行人经历除 LF、CA 和 Group 之外的社交交互的轨迹。 我们将社交互动定义如下:我们看主要行人前面的一个角区域。 如果在预测期间的任何时刻,定义区域中存在任何相邻行人,则该场景被归类为存在社交互动。
4) 非交互(类型 IV):如果主要行人的轨迹是非线性的,并且在预测过程中没有经历社会交互。
使用我们定义的轨迹分类,我们通过对主要对应于类型 III 类别的轨迹进行采样来构建 TrajNet++ 基准。 此外,数据集中有许多 TypeI 场景会妨碍模型的训练并导致误导性评估。 因此,我们在构建基准时删除了此类样本。 补充材料中提供了分类阈值的详细信息以及构成 TrajNet++ 基准的数据集。 我们在现实世界中的一些分类示例如图 9 所示。除了包含良好采样的轨迹之外,TrajNet++ 还提供了一个广泛的评估系统来更好地了解模型性能
B. 评估指标
单峰评估: 单峰评估是指对为给定的过去观察提出单一未来模式的模型的评估。 在单峰环境中最常用的人类轨迹预测指标是平均位移误差 (ADE) 和最终位移误差 (FDE) 定义如下:
1)平均位移误差 (ADE):地面实况和模型预测总体预测时间步长之间的平均 𝐿2 距离。
2)Final Displacement Error(FDE):预测期结束时预测的最终目的地与ground truth的最终目的地之间的距离𝑇𝑝𝑟 𝑒𝑑。
这些指标本质上定义了预测轨迹和真实轨迹之间的不同距离度量。 关于我们的任务,拥挤空间中人类行为最重要的方面之一是避免碰撞。 为了确保模型预测可行的无碰撞轨迹,我们在我们的框架中提出了两个基于碰撞的新指标(见图 10):
3) 碰撞单峰评估: I - 预测碰撞 (Col-I):该指标计算主要行人之间的碰撞百分比 以及预测未来场景中的邻居。 该度量指示预测的模型轨迹是否发生碰撞,即模型是否学习了避免碰撞的概念。
4) 碰撞 II - Groundtruth 碰撞 (Col-II):该度量计算主要行人的预测与地面真实未来场景中的邻居之间的碰撞百分比。
我们想进一步强调碰撞指标在单峰设置中的重要性。 如前所述,人体运动是多模态的。 模型可能预测物理上可行的未来,这与实际的基本事实不同。 这种物理上可行的预测可能会导致较大的 ADE/FDE,这可能会产生误导。 我们的 Col-I 指标可以帮助克服 ADE/FDE 指标的这种限制,并提供一种解决方案来衡量预测的“物理可行性”(在这种情况下是对碰撞的厌恶)。 Col-II 指标表明模型是否理解邻居的意图,并预测了在地面实况中与邻居的较少碰撞所指示的所需轨迹模式。
我们相信我们提出的碰撞指标是朝着理解人群中人类社交礼仪模型迈出的重要一步。
多模态评估:对于执行多模态预测的模型,即输出未来轨迹分布,我们提供以下指标来衡量它们的性能:5)Top-k ADE:给定 𝑘 对观察场景的输出预测,该指标计算 最接近真实轨迹的预测,在精神上类似于 Variety Loss [52]。
6) Top-k FDE:给定对观察场景的 𝑘 输出预测,该度量计算最接近真实轨迹的预测的 FDE,在精神上类似于 Variety Loss [52]。
对于 Top-k 指标,我们建议 𝑘 小(3 相对于 20)作为输出均匀间隔预测的模型,无论输入观察如何,都可以导致低得多的 Top-20 ADE/FDE。
7) 平均 NLL:这个指标是由 Boris 等人提出的。 阿尔。
[55]。 在每个预测步骤中,作者使用核密度估计(KDE)[91]。 根据这些估计,在每个时间步计算地面真实轨迹的对数似然,然后在预测范围内取平均值。 该度量提供了模型预测分布中真实轨迹概率的良好指示。

实验单峰评估:

在本节中,我们对 TrajNet++ 合成数据集和真实数据集进行了广泛的实验,以了解各种交互模块设计对人体轨迹预测的功效。 此外,我们展示了我们提出的指标如何帮助提供模型性能的完整图片。
A. 实现细节
每个行人的速度被嵌入到一个 64 维向量中。 交互向量的维数是256,目标方向向量的维数是64。
对于基于网格的交互编码,我们构建了一个大小为 16 × 16、分辨率为 0.6 米的网格。 编码器 LSTM 和解码器 LSTM 的隐藏状态的维度都是 128。如前所述,每个行人都有自己的编码器和解码器。 批量大小固定为 8。
我们使用 ADAM 优化器 [92] 进行训练,学习率为 1e-3。 我们在每个时间步执行交互编码。 对于基于串联的模型,除非另有说明,否则我们会根据欧几里德距离考虑前 4 个最近邻。 对于注意力聚合策略,我们利用了 Transformer 架构 [78] 中提出的注意力机制。
数据增强是另一种有助于提高准确性的技术,这可能被错误地归因于交互编码器。 我们使用旋转增强作为数据增强技术来规范所有模型。
B. 交互模型:
合成实验 我们利用合成数据集来验证受控设置中各种交互模块的功效。 对于合成数据集,由于 ORCA 可以访问每个行人的目标,因此我们嵌入了目标方向并将其连接到速度嵌入(参见等式 1)。
表 II 量化了 TrajNet++ 合成数据集文献中发布的不同交互模块设计的性能。 值得注意的是我们提出的 Col-I 指标如何提供更完整的模型性能图。 仅观察基于距离的指标,人们可能会错误地得出这些方法在性能上相似的结论,但是,它们并不能表明模型学习社交礼仪的能力(在这种情况下是避免碰撞)。 在安全关键场景中,与最小化 ADE/FDE 相比,模型防止碰撞更为重要。
1):基于网格的模型:我们提出的 D-Grid 优于 O-Grid,尤其是在 Col-I 方面,即 D-Grid 可以更好地学习避免冲突。 值得注意的是,尽管运动编码器 (LSTM) 有可能随时间推断邻居的相对速度,但当我们明确提供邻居的相对速度作为输入时,性能会有显着差异。 此外,由于 ORCA 是一阶轨迹模拟器,仅依赖于邻居的相对配置,因此可以解释 D-Grid 在受控设置中与 S-Grid 的性能相当。
2)聚合策略:我们专注于非网格编码器的信息聚合策略。 很明显,连接邻域信息的基线 D-MLP-Conc-MLP 的性能优于复杂的基于注意力的 D-MLP-Attn-MLP 和基于最大池化的 D-MLP-MaxP-MLP 替代方案。 这种性能可归因于串联方案的简单性及其保留周围邻居身份的特性。 MaxPooling 策略混合了邻居的不同嵌入,导致高碰撞损失。
3)基于LSTM的交互模型:在基于LSTM的非网格设计中,D-MLP-SumPool-LSTM模块[55]的性能下降可归因于(1)和池化,它失去了邻居的个体身份和 (2) 绝对邻居坐标而不是相对坐标的编码:代理与目标代理的关系坐标比代理的精确坐标更容易训练。 我们注意到使用 LSTM [O-LSTM-Att-MLP, D-MLP-Conc-LSTM] 对交互信息进行编码,提高了基于 MLP 的对应物的性能。 MLP 编码器由于其非循环性质,没有关于上一步交互表示的信息。 我们认为 LSTM 可以捕捉交互的演变,因此随着场景的演变提供更好的邻域表示,特别是在输入测量有噪声的情况下
C. 交互模型:
真实世界实验 现在,我们讨论预测模型在 TrajNet++ 真实世界数据上的性能。 在我们定义的轨迹分类的帮助下,我们通过采样主要对应于类型 III 交互类别的轨迹来构建 TrajNet++ 真实世界基准。 在对不同模块在受控合成数据上的性能有了深入的了解后,我们探索了一个问题,‘这些发现是否可以推广到包含更多不同交互的现实世界数据集。
表 III 提供了对 TrajNet++ 真实数据集的 III 型交互轨迹的现有基线的广泛评估。 我们观察到,在相同的基础上进行比较时,Col-I 指标是各种模型设计的差异化因素。 我们希望在未来,研究人员在报告他们在轨迹预测数据集上的模型性能时将结合碰撞指标。 此外,ADE/FDE 的性能是相似的(包括提交的方法),这表明在以交互为中心的采样良好的测试集上,当前轨迹预测模型的性能还有很大的提升空间。
1)经典方法: 我们首先与经典轨迹预测模型进行比较,即扩展卡尔曼滤波器(EKF)、社会力[17]和ORCA [29]。 Social Force 和 ORCA 模型都基于假设每个行人都有预期的运动方向和首选速度来预测未来的轨迹。 我们插入观察到的轨迹来识别每个代理的虚拟目标。 Social Force 和 ORCA 被校准以通过最小化 ADE/FDE 指标以及应避免碰撞的约束来拟合 TrajNet++ 训练数据 EKF 的高误差可归因于过滤器未对社交互动进行建模的事实。 就基于距离的度量而言,基于交互的 NN 模型优于手工模型,因为 NN 能够学习微妙而多样的社交互动。
2)基于网格的模块: 我们提出的 D-Grid 在现实世界中的性能也优于 O-Grid。 比较 D-Grid 和 S-Grid 的性能很有趣。
S-Grid 的当前设计未能学习预测碰撞的概念。 这重申了这样一个事实,即在训练以最小化 ADE/FDE 时,LSTM 的隐藏状态无法提供避免冲突所需的表示。 在 D-Grid 设计中,我们强制模型基于我们的领域知识明确关注相对速度。 我们设计的简单性稍微妨碍了基于距离的准确性,因为我们限制了模型的可表达性。 然而,由于我们基于领域知识的设计,模型学习社会概念的任务变得更容易,因此它会导致更安全的预测。 此外,如表 IV 所示,与 S-Grid 相比,D-Grid 提供了显着的计算速度,使其可用于实时部署。
3) 聚合策略: 我们评估各种聚合策略 [D-MLP-Attn-MLP、D-MLP-MaxP-MLP、D-MLP-ConC-MLP] 在保持所有其他因素不变的真实数据上的性能。 我们观察到最大池化策略的性能最差,因为它的设计是硬合并各种邻居的嵌入。 尽管连接策略很简单,但与复杂的基于注意力的对应策略相比,它的表现仅略差。 需要注意的一个有趣点是,D-MLP-Attn-MLP 的性能优于其社交对应物 S-MLP-Attn-MLP,进一步证实了基于知识的模块的优势。 我们相信串联基线是一个简单而强大的基线,可以在设计未来的信息聚合模块时进行比较。
4) 基于 LSTM 的交互模型: 在基于 LSTM 的非网格设计中,D-MLP-SumPool-LSTM 模块 [55] 由于 (1) 和池化策略和 (2) 绝对相邻坐标的编码而展示了高 Col-I 度量 . 由于没有相对速度作为交互模型的输入,O-LSTM-Att-MLP [82] 的 Col-I 指标与现实世界中的 D-MLP-Concat-LSTM 相比相对较高。 通过比较 D-MLP-Concat-LSTM 和 D-MLP-Concat-MLP 之间的性能,可以注意到在我们提出的 DirectConcat 模型中使用基于 LSTM 的嵌入的重要性。
这种设计选择有助于更好地模拟高阶时空交互,并且由于 LSTM 控制交互向量的演变,因此对现实世界测量中的噪声更加鲁棒。 根据欧几里德距离选择顶部-𝑘 邻居。 我们认为,与其基于注意力和基于最大池化的对应物相比,通过考虑最近邻来强加领域知识是 Col-I 度量改进的原因之一。 观察到,与 (𝑘 = 4) 相比,考虑大量最近邻 (𝑘 = 8) 会导致模型预测冲突增加,从而证实了这一点。
5) 与 Vanilla LSTM 的比较: 基于交互的模型在性能方面优于 Vanilla LSTM基于距离的度量。 然而,要讨论的一个重点是 Vanilla LSTM 和基于交互的模型在 Col-II 指标方面的性能比较。
我们要提醒的是,Col-II 度量中的性能代表模型预测主要行人的正确模式的情况,以便与邻居的真实轨迹的碰撞最小。 由于现
实世界数据的多模态特性,交互模型很可能为其中一个行人(主要或邻居)预测不同的模式,导致主要行人不遵循真实模式。 实际上,与 Vanilla LSTM 相比,当前的两个交互模型 [O-MLP-Att-LSTM、D-MLP-SumP-LSTM] 难以准确预测地面实况模式。 然而,这一观察并没有削弱建模社交互动的重要性。 Col-I 指标比较证明了社交互动建模的有用性,这表明给定主要行人的选择模式,互动模型预测整个场景的无碰撞未来,而不是 Vanilla LSTM。
6)修改后的训练目标: 我们采用修改后的训练目标,与惩罚场景中所有行人的标准做法相比,我们只惩罚主要行人[52]、[82]、[55]。 在现实世界的数据集中,由于我们定义的分类,我们知道主要轨迹在很大程度上是相互作用的; 然而,在邻居之间存在很大一部分轨迹是静态的和线性的。 在训练期间惩罚这样的相邻轨迹可能会使网络偏向于学习线性和静态行为,因为由此产生的不平衡分布(由邻居引起)。
表 V 说明了我们修改后的训练目标在帮助模型更好地学习避免碰撞方面的有效性。 在测试期间,我们不提供地面实况邻居轨迹。
7) 理解神经网络决策: 现在,使用流行的 LRP 技术,我们研究各种输入因素如何在每个时间步影响神经网络的决策。
这有助于我们验证神经网络决策过程是否遵循人类直觉。 图 11 说明了在实际场景中在我们提出的 D-Grid 模块和基线 S-Grid 上应用 LRP 程序时获得的每个邻居的分数。
在场景 1 中,我们演示了 LRP 在一个简单的真实示例中的应用。 在 D-Grid 的情况下,主要的 13 个行人开始关注潜在的对撞机 𝑁2,尽管它与 𝑁1 相比距离较远,从而通过保持靠近 𝑁1 来防止碰撞。 另一方面,S-Grid 一直专注于不受欢迎的𝑁1。 有趣的是,一旦 𝑁2 经过主要行人,D-Grid 和 S-Grid 都会将主要行人的注意力转移回 𝑁1。
在场景 2 中,我们展示了我们提出的 D-Grid 模块在复杂的现实世界场景中的有效性。 对于 D-Grid,最初主要的行人专注于 𝑁3 以防止碰撞。 在成功避免与 𝑁3 碰撞后,D-Grid 立即将焦点转移到对 𝑁1 和 𝑁2 上,因为它们可能会导致另一次碰撞。 在靠近 𝑁1 和 𝑁2 时,焦点显着转移到 𝑁1,因为它更靠近主要行人。 最后,在经过 𝑁1 和 𝑁2 时,主要行人注意前面的行人 𝑁4。 另一方面,S-Grid 在 𝑁1 和 𝑁2 之间传递,在人群中不会出现这种行为。
因此,我们可以看到 LRP 是一种有效的调查工具,可以了解 NN 决策背后的基本原理。 我们可以观察到,与表 III 中的 S-Grid 相比,除了具有较低的 Col-I 指标外,我们基于领域知识的 D-Grid 的决策在导航人群时满足了人类的直觉。 LRP 技术是通用的,可以应用于任何现有的经过训练的交互模块架构之上。
总而言之,尽管文献中声称特定交互模块可以更好地模拟交互,但我们观察到,在相同条件下,所有模块在基于距离的 ADE 和 FDE 指标方面表现相似。 Col-I 指标的结合描绘了更完整的模型性能图景。 其次,相对速度在现实世界中学习避免碰撞中起着至关重要的作用。
第三,一个简单的串联策略与复杂的基于注意力的对应策略表现相当。 我们认为,在设计未来的信息聚合模块时,串联基线应该是一个标准基线。 最后,LRP 技术是一种有用的调查工具,可以深入了解 NN 的决策过程。 我们希望这样的实践将有助于在未来的研究中加速交互模块的开发。 当然存在改进的空间,我们希望我们的基准提供必要的资源来推进轨迹预测领域。 我们开源我们的代码以实现可重复性。

结论

在这项工作中,我们解决了对人群中行人之间的社交互动进行建模的挑战。 虽然社交互动建模是人类轨迹预测的核心问题,但文献缺乏基于相同理由的许多现有互动模型设计之间的明确比较。 我们对文献中提出的交互模块的设计进行了深入分析,并提出了两种基于领域知识的交互模型。
该领域一个重要但缺失的部分是对这些基于交互的方法的客观和信息丰富的评估。 为了解决这个问题,我们提出了 TrajNet++:(1) TrajNet++ 以交互为中心,因为它主要包含交互发生的场景,这要归功于我们定义的轨迹分类,在现实世界和合成设置中,(2) TrajNet++ 提供了广泛的 评估系统,包括新的基于碰撞的指标,可以帮助衡量模型预测的物理可行性。 TrajNet++ 的卓越品质体现在基于交互的模型在所有指标的真实世界数据集上的改进性能(TrajNet [95] 上的前 5 种方法中的 4 种,早期的基准,不模拟社交互动)。 此外,我们展示了我们的基于碰撞的指标如何提供有关模型性能的更具体的图片。
我们提出的模型通过针对该领域几个流行的交互模块设计进行基准测试,在 TrajNet++ 合成数据集上的表现优于竞争基线。 在真实数据集上,在同等条件下进行比较时,所有设计在基于距离的指标方面没有明显的赢家。 我们提出的设计在减少模型预测冲突方面显示出显着的收益。 还有改进的余地,我们希望我们的基准能够帮助研究人员客观、轻松地将他们的方法与现有工作进行比较,从而使轨迹预测模型的质量不断提高,使我们能够应对更具挑战性的场景。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值