sophie 翻译

Sophie:一种用于预测符合社会和物理约束的路径的细心GAN
本文研究了场景中多个交互Agent的路径预测问题,这是自动驾驶汽车和社交机器人等许多自主平台的关键一步。我们提出了Sophie;一个基于生成性对抗网络(GAN)的可解释框架,它利用了两个信息源,即一个场景中所有代理的路径历史和使用场景图像的场景上下文信息。要预测座席的未来路径,必须利用物理和社会信息。以前的工作没有成功地联合建模物理和社会的相互作用。我们的方法将社会注意机制与物理注意相结合,帮助模型学习在大场景中的哪里看,并提取与路径相关的图像中最突出的部分。然而,社交注意力组件跨不同的代理交互聚集信息,并从周围邻居中提取最重要的轨迹信息。Sophie还利用GaN来生成更逼真的样本,并通过对其分布进行建模来捕捉未来路径的不确定性质。所有这些机制都使我们的方法能够为代理预测社会和物理上可行的路径,并在几个不同的轨迹预测基准上实现最先进的性能。

Introduction

当人们在公园或拥挤的商场里导航时,出于社会礼仪的考虑,他们会遵循常识规则来调整自己的路径。同时,他们能够适应物理空间和道路上的障碍。与物理地形以及与其周围的人类互动绝不是一件容易的任务;因为它需要:
·遵守环境的物理限制。为了能够在可行的地形上行走并避开障碍物或类似的物理约束,我们必须处理我们周围环境的局部和全局空间信息,并关注我们周围的重要元素。例如,当到达一条弯曲的路径时,我们更多地关注曲线而不是环境中的其他约束,我们称之为物理注意。
·预测他人的动作和社会行为。为了避免与他人发生冲突,扰乱他们的个人空间,或打断一些社交互动(例如握手),我们必须很好地理解他人的动作和环境的社会规范,并相应地调整我们的道路。我们应该考虑到一些代理人对我们的决定有更大的影响。例如,当我们走在走廊上时,我们更多地关注我们前面的人,而不是我们后面的人,我们称之为社会关注。对这些社交互动进行建模是一项不平凡的任务。
·找到多条可行路径。为了到达目的地,我们的道路往往存在不止一种选择,这就是人类运动的模糊性。事实上,我们通往目的地的可穿越路径有一个范围[21,13,8,1]。
在本文中,我们旨在解决一组代理的未来路径预测问题。现有的方法遵循不同的策略来解决这个问题。一些方法仅依靠场景上下文为每个代理预测可行路径。例如,[3]中的方法使用先前创建的对场景特定的观察到的运动模式进行编码的导航地图,从补丁特定的描述符中学习所有代理的动态模式。在[14]中,该方法从俯视图像中学习场景上下文,以便预测每个代理的未来路径。[23]将注意力机制应用于输入图像,以便突出每个代理的未来路径的重要区域。然而,所有上述方法都忽略了其他代理状态对预测目标代理未来路径的影响。
与使用场景上下文信息的路径预测并行,最近已经提出了几种方法来对场景中所有代理之间的交互进行建模,以便预测每个目标代理的未来轨迹[5,6]。虽然这些方法在解决这一具有挑战性的问题方面显示了有希望的进展,但它们仍然忽略了作为关键信息的场景上下文。此外,这些方法的不足之处在于,它们不是将行人未来的运动视为位置的分布,而是只预测一条路径,这通常最终会优化“平均行为”,而不是学习困难的约束。为了解决第二个问题,[1,14,26]引入了能够生成多条可行路径的模型。然而,这些模型中的大多数仅在非常有限的搜索空间中纳入了少数相邻代理的影响。最近,[8]提出了一种考虑场景中所有代理影响的GAN模型。
在这项工作中,我们提出了一种基于GAN的专注的Sophie方法,它可以考虑来自场景上下文和代理的社会交互的信息,以便预测每个代理的未来路径。受最近注意力网络[25]和Gans[7]在不同现实世界问题中的成功影响,我们提出的框架同时使用这两种机制来解决具有挑战性的轨迹预测问题。我们使用视觉注意模型来处理静态场景上下文,同时使用一种新的注意模型来观察其他代理的动态轨迹。然后,应用基于LSTM的GaN模块来学习可靠的生成模型,该模型表示未来每个代理在一系列似是而非和现实的路径上的分布。
据我们所知,以前没有其他工作同时解决上述所有问题。Sophie生成多个社会敏感和物理上可信的轨迹,并在多个轨迹预测基准上实现最先进的结果。概括起来,本文的主要贡献如下:
·我们的模型结合Agent之间的社会交互使用场景上下文信息,以预测每个Agent的未来路径。
·提出了一种更可靠的特征提取策略来对Agent之间的交互进行编码。
·我们引入了两种注意机制,与基于LSTM的GaN相结合,以生成更准确且可解释的社会和物理可行路径。
·多轨迹预测基准的最新结果。

Related Work

近年来,弹道预测任务取得了许多进展。以前的许多关于轨迹预测的研究要么专注于物理环境对代理路径的影响(代理-空间交互),并学习场景特定的特征来预测未来路径[23],要么专注于社会交互的影响(动态代理现象),并建模受其他代理行为影响的代理的行为[1,8]。很少有作品试图将轨迹和场景线索结合起来[14]。

Agent-Space Models. 这种模型主要利用场景信息,例如,汽车倾向于在车道之间行驶,或者人类倾向于避开长凳等障碍物。Morris等人。[19]对时空模式进行聚类,并使用隐马尔可夫模型对每个组进行建模。Kitani等人。[13]使用隐变量马尔可夫决策过程来模拟人与空间的相互作用,并推断行人的可行走路径。最近,Kim等人。[12],训练一个单独的递归网络,每个未来时间步长一个,以预测附近汽车的位置。Ballan等人。[3]引入动态贝叶斯网络来建模来自先前所见模式的运动依赖性,并通过在相似设置之间传递知识来将其应用于未见场景。在一项有趣的工作中,Lee等人使用了变分自动编码器。[14]学习静态场景上下文(和小邻域中的代理),并相应地对生成的轨迹进行排序。Sadeghian等人。[23],也使用俯视图像并学习基于静态场景上下文预测轨迹。我们的工作类似于[23],因为我们都使用注意的递归神经网络来预测考虑物理环境的轨迹;尽管如此,我们的模型能够考虑到其他周围的代理,并且能够使用GaN模块生成多个合理的路径。

Agent-Agent模型。用于建模和预测人与人之间交互的传统模型使用“社会力量”来捕捉人类运动模式[9,17,27,20,2,21]。这些模型的主要缺点是需要手工创建规则和功能,限制了它们超越抽象级别和领域专家进行高效学习的能力。现代具有社会意识的轨迹预测工作通常使用递归神经网络[1,14,6,5,4,11]。Hug等人。[10]提出了一项基于实验的研究,研究了一些RNN模型在社会感知轨迹预测中的有效性。这些方法是相对成功的,然而,这些方法中的大多数只利用了本地交互,而没有考虑到进一步的代理。在最近的一项工作中,Gupta等人。[8]通过使用Gans解决此问题以及座席轨迹可能有多个看似合理的未来这一事实。然而,他们的方法将所有代理对彼此的影响统一对待。相反,我们的方法使用了一种新的注意框架来突出每个目标代理的最重要的代理。

最近的一些方法[14,26,4]在某种程度上将场景和社会因素都纳入了他们的模型中。然而,这些模型只考虑了有限的相邻Agent之间的相互作用,只能为每个Agent生成一条看似合理的路径。我们通过应用更明智的策略来解决所有这些限制,例如1-使用视觉注意力组件来处理场景上下文,并为每个代理突出场景的最显著特征,2-使用社交注意力组件,估计每个代理对目标代理的未来路径预测的贡献量,以及3-使用GAN估计每个代理的可行路径上的分布。我们通过在几个标准轨迹预测数据集上展示最先进的性能来支持我们的主张。

SoPhie

我们的目标是开发一个模型,能够成功地预测一组代理的未来轨迹。为此,每个代理在未来所采取的路由不仅需要受到其自身状态历史的影响,而且还需要受到其他代理的状态以及其路径周围的物理地形的影响。索菲在预测每个代理人的未来轨迹时考虑了所有这些线索。

3.1。 问题定义
轨迹预测可以正式地表述为在给定场景信息及其过去状态的情况下估计将来所有代理的状态的问题。 在我们的情况下,场景信息作为图像I t馈入,例如 在时间t处场景的俯视图或视角视图图像进入模型。 此外,假定每个代理i在时间t的状态是其位置,例如,在位置t。 相对于参考的2D坐标(x t i,yt i)∈R 2。 图片角或顶视图的世界坐标。 因此,N个代理的过去和当前状态由其2D位置的有序集合表示为:
公式
其中[N] = {1,···,N}。 在整篇论文中,我们使用符号X·1:N和X·1:N \ i分别表示所有N个代理商状态和除目标代理商i以外的所有代理商状态的集合。 我们还使用符号Yτ表示t +τ中的将来状态。 因此,在T> 1的帧t +1和t + T之间,代理i的未来地面真理和预测状态分别用Y 1:T i和Yˆ 1:T i表示,其中
公式
我们的目标是学习模型W ∗的参数,以预测给定时间t的输入图像以及直到当前帧t的所有代理的状态,从而预测t + 1与t + T之间每个代理的未来状态, 即
公式
其中模型参数W *是模型中使用的所有深层神经结构的权重集合。
我们使用反向传播和随机梯度下降来端到端地训练所有权重,方法是使所有特工的预测状态与实际情况之间的损失LGAN最小化。 我们将在以下部分中详细说明。
3.2。 总体模型
我们的模型包含三个关键组件,包括:1-特征提取器模块,2-注意模块和3-基于LSTM的GAN模块(图2)。 首先,特征提取器模块使用卷积神经网络从场景中提取适当的特征,即当前帧I t处的图像。 它还使用LSTM编码器对每个代理的状态X1:ti和直到当前帧X1:t 1:N \ i的所有其他代理的状态之间的索引不变的特征进行编码,但在时间上是相关的。 图2(a))。 然后,关注模块突出显示下一个模块输入特征的最重要信息(图2(b))。 注意模块由两个注意机制组成,分别称为社交和身体注意组件。 物理注意力从训练数据中了解场景中的空间(物理)约束,并专注于每个代理在物理上可行的未来路径。 同样,社会关注模块学习代理人之间的互动以及他们对每个代理人未来路径的影响。 最后,基于LSTM的GAN模块(图2(c))从关注模块中获取突出显示的功能,从而为每个代理生成了一系列合理可行的未来路径。 更详细地讲,LSTM解码器用于预测每个代理在将来的时间相关状态,即Y 1:T i。 与GAN相似,鉴别器也可通过强制生成更多逼真的样本(轨迹)来提高生成器模型的性能。 在以下各节中,我们将详细介绍每个模块。
3.3。 特征提取器特征提取器模块具有两个主要组件,如下所述。 为了从图像I t中提取视觉特征V t P h,我们使用了卷积神经网络(CNN)。
公式(1)
在本文中,我们将VGGnet-19 [24]用作CNN(·),其中其权重Wcnn通过在ImageNet [22]上进行预训练并根据[16]中所述的场景分割任务进行微调来初始化。
要从所有特工的过去轨迹中提取关节特征,我们执行以下过程。 与[8]相似,首先使用LSTM捕获代理i的所有状态之间的时间相关性,并将它们编码为时间t的高维特征表示,即
公式(2)
其中,h t en(i)表示代理i在时间t处编码器LSTM的隐藏状态。 此外,为了捕获其他智能体状态对智能体未来轨迹的预测的影响,我们需要从所有智能体的编码特征V t en(·)中提取一个联合特征。 但是,由于代理的顺序确实很重要,因此无法简单地通过将它们串联来创建此联合功能。 为了使联合特征置换相对于代理的索引不变,现有方法使用置换不变(对称)函数,例如max [8]。 然后,该联合全局特征由每个代理的特征V t en(i)串联起来,以馈送到状态生成器模块。 但是,通过这种方式,所有座席将具有相同的联合特征表示。 此外,置换不变函数(例如max)可能会丢弃其输入的重要信息,因为它们可能会失去其唯一性。 为了解决这两个限制,我们改为定义一个一致的排序结构,在该结构中,目标代理i的联合特征是通过排序其他代理与代理i的距离(即
公式(3)
其中πj是根据其他代理到目标代理i的距离排序的索引。 在此框架中,每个主体i都有其自己独特的联合(社交)特征向量。 我们还使用sort作为置换不变函数,其中排序的参考是目标代理i与其他代理之间的欧式距离。 请注意,排序函数与max相比具有优势,因为它可以保持输入的唯一性。 为了处理可变数量的代理,我们设置了最大代理数量(N = Nmax),并且如果当前帧中不存在相应的代理,则将虚拟值用作特征
3.4。 注意力模块
类似于人类更关注封闭的障碍物,即将到来的转弯和朝他们走去的人,而不是建筑物或背后的人,我们希望模型更多地关注场景的显着区域以及场景中更相关的主体。 为了预测每个代理商的未来状态。 为了达到这个目的,我们对物理V t P h和社会V t So(i)特征使用了类似于[25]的两个独立的软注意力模块。
物理注意这个注意模块AT TP h(·)的输入是GAN模块中解码器LSTM的隐藏状态,以及从图像V t P h中提取的视觉特征。 请注意,解码器LSTM的隐藏状态具有用于预测代理的未来路径的信息。
并且该模块从训练数据中学习场景中的空间(物理)约束。 因此,输出将是上下文向量C t P h,它集中于每个代理的可行路径。
公式(4)
在此,WP h是身体注意力模块的参数,并且h t dec(i)表示代理i在时间t处的解码器LSTM的隐藏状态。
社会注意力与物理注意力模块类似,联合特征向量V t So(i)以及第i个代理的解码器LSTM的隐藏状态,连同参数一起被馈送到社会注意力模块AT TSo(·) WSo以获得第i个主体的社交情境向量C t So(i)。
此向量突出显示了预测代理i的轨迹时,哪些其他代理最重要。
公式(5)
对于AT TP h(·)和AT TSo(·),我们使用类似于[25]的软注意力,这是可区分的,并且整个体系结构可以通过反向传播进行端到端的训练。
社会关注和身体关注聚集了所有相关主体和物理地形上的信息,以处理在拥挤区域中对所有主体的交互进行建模的复杂性,同时为我们的预测增加了可解释性。 这也以有用的方式抑制了输入数据的冗余,从而使预测模型可以将重点放在重要特征上。 我们的实验在表1中显示了注意力组件的贡献。
3.5。 基于LSTM的生成对抗网络
在本节中,我们介绍基于LSTM的生成对抗网络(GAN)模块,该模块采用每个代理i,C t So(i)和C t P h(i)的社交和物理上下文向量,如下 输入和输出符合社会和身体限制的候选未来状态。 大多数现有的轨迹预测方法都使用地面真实性和预测之间的L2范数损失来估计未来状态[23]。 通过使用L2损失,网络仅学习预测每个代理的一条未来路径,从直观上讲,这是每个代理所有可行的未来路径的平均值。
相反,在我们的模型中,我们使用GAN来学习和预测所有可行的未来路径上的分布。
GAN包含两个相互竞争的网络,一个生成器和一个鉴别器。 训练生成器以学习路径的分布,并为代理生成可能的未来路径的样本,而鉴别器则学习区分生成的路径的可行性或不可行性。 在两个玩家的最小-最大游戏框架中同时训练这些网络。 在类似于[8]的本文中,我们使用两个LSTM,一个解码器LSTM作为生成器,一个分类器LSTM作为鉴别器,来估计时间相关的未来状态。
生成器(G)我们的生成器是解码器LSTM,LSTMdec(·)。 类似于条件GAN [18],生成器的输入是从多元正态分布采样的白噪声矢量z,而物理和社交环境矢量是其条件。 我们将噪声向量z和这些上下文向量简单地串联为输入,即C t G(i)= [C t So(i),Ct P h(i),z]。 因此,可以通过以下方式获得每个代理生成的第τ个未来状态的样本:
公式(6)
公式(7 8 9 10)
)4.实验在本节中,我们首先在常用数据集(如ETH [20]和UCY [15])以及最新的更大数据集(即斯坦福无人机数据集[21])上评估我们的方法。 我们还将这些数据集的性能与各种基准进行比较。 接下来,我们对注意力机制有效性的模型进行定性分析。 最后,我们通过展示一些定性结果来结束本节,这些结果有关基于GAN的方法如何为代理提供路径可穿越性的良好指示。
数据集我们对三个核心数据集执行基线比较和消融实验。 首先,我们探索公开可用的ETH [20]和UCY [15]数据集,它们都包含在各种社会情况下交互的现实世界行人的带注释的轨迹。 这些数据集包括非平凡的运动,包括行人碰撞,避免碰撞行为和群体运动。 这两个数据集总共包含五个独特的场景,Zara1,Zara2和Univ(来自UCY)以及ETH和Hotel(来自ETH)。 每个场景都包含顶视图图像和每个人相对于世界坐标的2D位置。
由于摄像机保持静止状态,每个场景只使用一张图像每个场景都发生在相对不受限制的室外环境中,从而减少了物理限制的影响。 我们还探索了斯坦福无人机数据集(SDD)[21],它是轨迹预测问题的基准数据集。 该数据集包含20个独特场景的鸟瞰图,其中行人,自行车和汽车在大学校园中导航。
与以前的数据集相似,从顶视图角度提供图像,但以像素为单位提供坐标。 这些场景位于室外,并包含行人避开的物理地标,例如建筑物和回旋处。
实现细节我们使用Adam优化器对生成器和鉴别器模型进行了迭代训练,最小批量大小为64,生成器和鉴别器的学习率均为0.001。 训练了200个时代的模型。 编码器使用嵌入尺寸为16的单层MLP对轨迹进行编码。
在生成器中,它被馈入隐藏尺寸为32的LSTM; 在鉴别器中,会发生相同的情况,但维度为64。生成器的解码器使用嵌入维度为16的单层MLP编码器代理位置,并使用隐藏维度为32的LSTM。在社会关注模块中 通过将编码器输出和解码器上下文传递到大小为64、128、64和1的多个MLP层,并散布了ReLu激活,可以检索注意力权重。 最后一层穿过Softmax层。 考虑周围Nmax = 32个代理的交互; 之所以选择此值,是因为在任何给定的时间步中,任一数据集中的场景均未超过活动代理总数的总数。 如果少于Nmax个代理,则使用虚拟值0。 物理注意模块采用原始VGG功能(512通道),使用卷积层投影那些功能,并将使用单个MLP的那些功能嵌入到嵌入尺寸16。区分器不使用注意模块或解码器网络。 在训练时,我们假设我们已经观察到一个特工的八个时间步长,并试图预测下一个T = 12个时间步长。 我们通过设置λ= 1来加权损失函数。
/另外,为了使我们的模型对场景定向更加稳健,我们通过翻转和旋转场景以及对座席坐标进行归一化来增强训练数据。 我们观察到,这些增强有助于使训练后的模型足够通用,以便在测试示例中的未见案例和诸如回旋处之类的不同场景几何中表现良好。
基线和评估对于前两个数据集,使用了一些简单但强大的基线。 其中包括Lin线性回归器,它通过最小化最小平方误差来估计线性参数; S-LSTM,一种将LSTM与社交池层结合在一起的预测模型,如Alahi等人所提出。 等 [1]; S-GAN和S-GAN-P,将生成模型应用于社会LSTM的预测模型[8]。 对于无人机数据集,我们将其与相同的线性和社交LSTM基准进行了比较,还探索了其他几种最新方法。 其中包括社会力量,是[27]中相同社会力量模型的实现; DESIRE,Lee等人提出的逆最优控制(IOC)模型。 等 利用生成模型; 和CARNet,这是来自[23]的物理注意模型。 对于所有数据集,我们还以1-TA的形式在烧蚀的情况下展示了各种版本的SoPhie模型的结果:仅具有社会特征和社会关注机制的Sophie模型,具有视觉和社会特征的2TO + IO Sophie模型而没有任何关注 机制,具有视觉和社交功能且只有视觉注意力机制的3- TO + IA Sophie模型,具有视觉和社交功能且只有社交注意力机制的4- TA + IO Sophie模型以及具有所有模块的5TA + IA完整Sophie模型 。
所有模型均使用平均位移误差(ADE)度量(定义为所有行人和所有时间步长上地面真实情况和行人轨迹之间的平均L2距离)以及最终位移误差度量(FDE)进行评估。 评估任务定义为在8秒内执行,使用由前3.2秒组成的过去8个位置作为输入,并预测最后4.8秒的剩余12个未来位置。 对于前两个数据集,我们通过执行留一法交叉验证策略来遵循与[8]相似的评估方法,其中我们在四个场景上进行训练,然后对其余场景进行测试。 在仪表空间中评估这两个数据集。
对于SDD,我们使用标准拆分,并且为了与基线进行比较,我们在从米转换后以像素空间报告结果。
4.1。 量化结果
ETH和UCY我们将模型与表1中的各种基线进行比较,报告了米空间中的平均位移误差(ADE)和最终位移误差(FDE)。 不出所料,我们看到线性模型总体上表现最差,因为它无法建模不同人类之间的复杂社会互动以及人类与其物理空间之间的互动。
我们还注意到,由于使用了社交池,S-LSTM相对于线性基准有所改进,并且通过从生成的角度解决问题,S-GAN对该LSTM基准进行了改进。
我们的第一个模型TA仅将社会环境应用于行人轨迹,由于具有更好的特征提取策略和注意力模块,因此其平均表现略优于S-GAN。 不出所料,尽管社交环境有助于该模型形成更好的预测,但仅凭它本身不足以真正理解场景中的交互。 类似地,虽然我们的第二个模型TO + IO同时应用了行人轨迹和物理场景中的特征(没有注意),但是由于缺少这些附加特征的上下文,该模型无法学习哪个组件最重要,从而获得了相似的准确性 到TA。 在探索TO + IA和TA + IO模型时,我们在模型性能方面的第一个主要收获是。
由于前者将物理上下文应用于图像特征,而后者将社会上下文应用于轨迹特征,因此每个模型都能够学习交互的重要方面,从而使它们稍稍优于以前的模型。 有趣的是,TO + IA的性能比TA + IO的性能稍好,这可能意味着了解物理环境在预测任务中会更有帮助。 最终的SoPhie模型由对轨迹的社会关注和对图像特征的物理关注(TA + IA)组成,其性能优于之前的模型,这表明结合两种关注形式可以进行可靠的模型预测。
斯坦福无人机数据集接下来,我们将我们的方法与表2中的各种基线进行比较,报告像素空间中的ADE和FDE。 与以前的数据集非常相似,对于SDD,我们看到线性基线表现最差,而S-LSTM和S-GAN提供了更高的准确性。 由于使用了身体上的注意,准确性的下一个主要改进是使用CAR-Net。
这可能是由于SDD的性质所致,其中可以从场景的鸟瞰图推断出基于道路曲率的行人运动。 DESIRE框架提高了准确性的下一个主要改进,该框架从生成的角度探讨了轨迹预测,使其成为最佳基准。 请注意,DESIRE结果从[14]中报告的4.0s结果线性插入到4.8s,因为它们的代码不可公开获得。 最后,将社会情境纳入TA以及TA + IA中的社会情境和自然情境都可以显着改善模型,这表明这两种专心的模型对于解决轨迹预测问题至关重要。
社会和身体限制的影响 由于目标是产生社会上可接受的路径,因此我们还使用了不同的评估指标,以反映接近碰撞的百分比(如果两个行人的距离小于0.10m,则接近)。 我们已经计算了每个BIWI / ETH场景中所有帧上接近行人碰撞的平均百分比。 表3中列出了这些结果。为了更好地理解我们的模型还可以产生物理上可行的路径的能力,我们还将斯坦福无人机数据集的测试集分为两个子集:简单和复杂,如先前在CAR-Net中所做的[23]。 并将结果报告在表4中。我们注意到,S-GAN基线在简单场景上表现不错,但是无法很好地推广到物理上复杂的场景。 另一方面,由于这种物理环境,CARNet和SoPhie在简单场景上的性能均比S-GAN和仅LSTM的轨迹略有提高,并且在复杂场景上的误差几乎减半。 该实验表明,苏菲运用身体注意力成功地预测了身体和社会上可接受的路径
4.2。 定性结果
我们进一步研究了我们的架构对社交和自然互动如何影响未来的能力进行建模轨迹。 图3展示了注意力在纠正错误预测上可能产生的影响。 在这里,我们将三种独特的情况可视化,将基线的社交GAN预测与我们的模型进行了比较。 在第一种情况(A)中,身体的注意确保绿色行人的轨迹遵循道路的弯道。 在第二种情况B中,对绿色行人的社会关注确保了主要的蓝色行人不会与任何行人发生碰撞。 在第三种情况(C)中,将施加物理注意以确保红色行人停留在道路内,而社会关注则确保蓝色行人不会与红色行人碰撞。 这样,社会和身体关注的引入不仅允许更大的模型可解释性,而且可以使预测与场景约束更好地吻合。
生成式SoPhie体系结构的另一个好处是,它可以用来了解场景中哪些区域是可遍历的。 为了展示我们方法的有效性,我们从测试集中采样了30个随机代理(即每个轨迹的前8秒),并使用此起点生成了生成的采样轨迹。 然后使用鉴别器验证这些生成的轨迹。 这些轨迹的分布形成了一个可解释的可遍历图,如图4所示。每个图像代表SDD中的唯一场景,其中覆盖的热图​​显示可遍历的区域,蓝色叉形图显示起始样本。 使用Nexus 6,该模型可以成功地将可穿越区域识别为中心道路和通向侧面的路径。 使用Little 1,该模型可以识别出行人所走的主要人行道,而正确地忽略了行人所避开的道路。 在Huang 1中,模型能够正确识别图像上的横截面和侧路径。 因此,我们观察到,即使只有少量样本,生成网络也可以成功地用于探索场景中的遍历性区域。

5.结论

我们提出了一个轨迹预测框架,该框架在多个基准数据集上的性能优于最新方法。 我们的方法利用社交和身体关注机制,利用完整的场景上下文和所有代理的交互,同时实现可解释的预测。 为了在预测的轨迹上生成分布,我们提出了一种细心的GAN,它可以成功生成尊重环境社会约束的多种物理上可接受的路径。 我们表明,通过联合建模有关物理环境和所有代理之间的交互作用的信息,我们的模型比单独使用此信息时学习的性能更好

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值