AgentFormer翻译

摘要

预测多个智能体的准确未来轨迹对于自治系统至关重要,但由于智能体之间的复杂交互以及每个智能体未来行为的不确定性,因此具有挑战性。 预测多智能体轨迹需要对两个关键维度进行建模:(1)时间维度,我们对过去智能体状态对未来状态的影响进行建模; (2) 社会维度,我们对每个代理的状态如何影响其他代理进行建模。 大多数先前的方法分别对这两个维度进行建模,例如,首先使用时间模型独立地总结每个代理随时间的特征,然后对总结的特征与社会模型的交互进行建模。
这种方法是次优的,因为在时间或社​​会维度上的独立特征编码会导致信息丢失。 相反,我们更喜欢一种方法,它允许一个代理在某个时间的状态直接影响另一个代理在未来某个时间的状态。 为此,我们提出了一种新的 Transformer,称为 AgentFormer,它同时对时间和社会维度进行建模。 该模型通过跨时间和代理展平轨迹特征来利用多代理轨迹的序列表示。 由于标准注意力操作不考虑序列中每个元素的代理身份,AgentFormer 使用一种新颖的代理感知注意力机制,通过以不同于其他代理元素的方式关注同一代理的元素来保留代理身份。 基于 AgentFormer,我们提出了一种随机多智能体轨迹预测模型,该模型可以在推断智能体的未来位置时关注任何智能体在任何先前时间步的特征。 所有代理的潜在意图也被联合建模,允许一个代理行为的随机性影响其他代理。 大量实验表明,我们的方法在完善的行人和自动驾驶数据集上大大提高了现有技术水平。

引言

自动驾驶汽车等自主系统的安全规划需要准确预测未来周围代理(例如,行人、车辆)的轨迹信息。然而,多智能体轨迹预测具有挑战性,因为智能体之间的社交互动,即智能体对他人的行为影响,是一个复杂的过程。 由于每个智能体未来行为的不确定性,问题变得更加复杂,即每个智​​能体的潜在意图未被系统观察到(例如,向左或向右转)控制其未来轨迹,进而影响其他智能体。因此,一个好的多智能体轨迹预测方法应该有效地建模(1)智能体之间复杂的社会互动和(2)每个智能体未来行为的潜在意图及其对其他智能体的社会影响。
多智能体社交互动建模涉及两个关键维度,如图 1(顶部)所示:(1)时间维度,我们对过去的智能体状态(位置和速度)如何影响未来智能体状态进行建模; (2) 社会维度,我们模拟每个代理的状态如何影响其他代理的状态。 大多数先前的多智能体轨迹预测方法分别对这两个维度进行建模(见图 1(中))。 像 [25, 1, 15] 这样的方法首先使用时间模型(例如,LSTMs [17] 或 Transformers [47])来独立地总结每个代理随时间推移的轨迹特征,然后将总结的时间特征输入到社会模型(例如,图 神经网络 [23])来捕捉代理之间的社交互动。 或者,像 [45, 18] 这样的方法首先使用社会模型在每个独立的时间步为每个代理生成社会特征,然后在社会特征上应用时间模型。 在这项工作中,我们认为单独对时间和社会维度进行建模可能是次优的,因为在时间或社​​会维度上的独立特征编码不受另一个维度的特征的影响,并且编码的特征可能不包含必要的信息 建模另一个维度。
为了解决这个问题,我们提出了一种新的 Transformer 模型,称为 AgentFormer,它同时从时间和社会维度学习表征。
AgentFormer 允许一个代理在某个时间的状态直接影响另一个代理在未来时间的状态,而不是通过在一维上编码的中间特征。 由于 Transformer 需要序列作为输入,我们通过跨时间和代理展平轨迹特征来利用多代理轨迹的序列表示(见图 1(底部))。 然而,直接将标准 Transformers 应用于这些多智能体序列将导致时间和智能体信息的丢失,因为标准注意力操作会丢弃与序列中每个元素相关联的时间步长和智能体身份。 我们使用时间编码器来解决时间信息的丢失问题,该编码器将时间戳特征附加到每个元素。 然而,代理身份的丢失是一个更复杂的问题:与时间不同,代理之间没有先天的排序,分配基于代理索引的编码将打破代理所需的排列不变性,并在模型中创建对代理索引的人为依赖 . 相反,我们提出了一种新颖的代理感知注意机制来保存代理信息。 具体来说,代理感知注意力通过不同的线性变换生成两组键和查询; 一组键和查询用于计算代理间注意(代理到代理),而另一组用于计算代理内注意(代理到自身)。 这种设计允许代理感知注意力以不同于其他代理的元素的方式关注同一代理的元素,从而保持代理身份的概念。 代理感知注意力可以通过掩码操作有效地实现。 此外,AgentFormer 还可以通过屏蔽未连接代理之间的注意力权重来编码代理之间基于规则的连接(例如,基于距离)。
基于 AgentFormer,它使我们能够有效地对社交互动进行建模,我们提出了一个多代理轨迹预测框架,该框架还可以模拟每个代理的未来轨迹对其他代理的社会影响。 该模型的概率公式遵循条件变分自动编码器(CVAE [21]),我们对以上下文(例如过去的轨迹、语义图)为条件的生成未来轨迹分布进行建模。 我们为每个代理引入了一个潜在代码来表示其潜在意图。 为了模拟每个智能体的未来行为(由潜在意图控制)对其他智能体的社会影响,所有智能体的潜在代码在训练期间从所有智能体的未来轨迹共同推断出来,并且它们还被轨迹解码器共同用于 输出具有社会意识的多智能体未来轨迹。 多亏了 AgentFormer,轨迹解码器可以在推断代理的未来位置时关注任何先前时间步长的任何代理的特征。 为了提高采样轨迹的多样性并避免随机采样导致的相似样本,我们进一步采用了多智能体轨迹采样器,该采样器可以通过将上下文映射到所有智能体潜在代码的各种配置来生成多样且合理的多智能体轨迹。
我们在完善的行人数据集 ETH [38] 和 UCY [28] 以及自动驾驶数据集 nuScenes [3] 上评估我们的方法。 在 ETH/UCY 和 nuScenes 上,我们超越了最先进的多智能体预测方法,并具有显着的性能改进。 我们进一步进行了广泛的消融研究,以显示 AgentFormer 优于各种社会和时间模型组合。 我们还证明了代理感知注意力对代理编码的有效性。
总而言之,本文的主要贡献是:(1)我们提出了一种新的 Transformer,它同时使用序列表示对多智能体轨迹的时间和社会维度进行建模。 (2) 我们提出了一种新的智能体感知注意力机制,它保留了多智能体轨迹序列中每个元素的智能体身份。 (3) 我们提出了一个多代理预测框架,该框架对所有代理的潜在意图共同建模,以产生社会上合理的未来轨迹。 (4) 我们的方法大大提高了行人和自动驾驶数据集的最新技术水平。
图 1. 与分别在时间和社会维度中对多智能体轨迹建模的标准方法不同,我们的 AgentFormer 允许对时间和社会维度进行联合建模,同时保留时间和智能体信息。

相关工作

序列建模 序列是视频、音频、价格等数据的重要表示。 从历史上看,RNN(例如,LSTM [17]、GRU [7])在序列建模方面取得了显着的成功,并应用于语音识别 [52, 35 ]、图像字幕 [53]、机器翻译 [32]、人体姿态估计 [56, 24] 等。特别是,RNN 一直是轨迹和运动预测的首选时间模型。 许多基于 RNN 的方法对行人的轨迹模式进行建模,以预测他们未来的二维位置 [1, 19, 61]。 之前的工作还使用 RNN 对 3D 人体姿势的时间动态进行建模 [11, 58, 60]。 随着 Transformer 和位置编码 [47] 的发明,由于 Transformers 强大的捕获远程依赖的能力,许多作品开始采用 Transformer 进行序列建模。 Transformer 首先在各种任务中主导了自然语言处理 (NLP) 领域 [9, 26, 54]。 除了 NLP,还提出了许多视觉变换器来处理视觉任务,例如图像分类 [10]、对象检测 [4] 和实例分割 [50]。 最近,Transformers 也被用于轨迹预测。 TransformerTF [12] 应用标准 Transformer 来独立预测每个代理的未来轨迹。 STAR [55] 使用单独的时间和空间转换器来预测多智能体轨迹。 Interaction Transformer [30] 结合了 RNN 和 Transformer,用于多智能体轨迹建模。 与之前的工作不同,我们的 AgentFormer 利用多智能体轨迹的序列表示和新颖的智能体感知注意机制来保留序列中的时间和智能体信息。
轨迹预测 轨迹预测的早期工作采用确定性方法,使用社会力量 [16]、高斯过程 (GP) [49] 和 RNN [1, 36, 48] 等模型。 [43] 中提供了对这些确定性方法的全面审查。 由于代理的未来轨迹是不确定的并且通常是多模态的,最近的轨迹预测方法开始使用深度生成模型 [21, 13, 40] 对轨迹分布进行建模,例如条件变分自动编码器 (CVAE) [27, 57, 19] , 46, 51, 45],生成对抗网络 (GAN) [15, 44, 25, 62] 和标准化流 (NF) [41, 42, 14]。 大多数这些方法遵循 seq2seq 结构 [2, 6] 并使用过去轨迹的中间特征预测未来轨迹。 相比之下,我们基于 AgentFormer 的轨迹预测框架可以在推断代理的未来位置时直接关注任何先前时间步长的任何代理的特征。此外,我们的方法对所有代理的未来轨迹进行了联合建模,以预测具有社会意识的轨迹。
社会互动建模 社交互动建模方法可以根据它们如何建模时间和社交维度进行分类。 虽然 RNN [17, 7] 和 Transformers [47] 是首选的时间模型 [18, 1, 55],但图神经网络 (GNN) [23, 31] 经常被用作交互建模的社交模型 [22, 29] , 25]。 一种流行的方法 [25, 1, 15] 首先使用时间模型独立地总结每个代理随时间推移的轨迹特征,然后将时间特征提供给社会模型以获得具有社会意识的代理特征。 或者,像 [45, 18] 这样的方法首先使用社交模型在每个独立的时间步长生成每个智能体的社会特征,然后应用时间模型来总结每个智能体随时间的社会特征。这些先前作品的一个共同特征是它们在不同的层面上对时间和社会维度进行建模。这可能是次优的,因为它阻止了一次代理的特征在不同时间直接与另一个代理的特征交互,从而限制了模型捕获远程依赖关系的能力。 相反,我们的方法同时对时间和社会维度进行建模,允许跨时间和代理的直接特征交互。

方法

我们将多智能体轨迹预测制定为对 N(可变)智能体的生成未来轨迹分布进行建模,这些分布以过去的轨迹为条件。 对于观察到的时间步长 t ≤ 0,我们将所有 N 个代理在时间 t 的联合状态表示为 Xt = (xt 1 , xt 2 , . . , xt N ),其中 xtn ∈ R ds 是代理 n 在时间的状态 t,包括代理的位置、速度和(可选)航向角。 我们将所有代理的历史表示为 X = X−H, X−H+1 , 。 . . , X0 包括在所有 H + 1 个观察到的时间步长的联合代理状态。 类似地,所有 N 个智能体在未来时间 t (t > 0) 的联合状态表示为 Yt = (yt 1 , yt 2 , . . , yt N ),其中 ytn ∈ R dp 是智能体 n 的未来位置 在时间 t。 我们将所有 N 个智能体在 T 个未来时间步长上的未来轨迹表示为 Y = Y1 , Y2 , 。 . . ,YT。 根据数据,还可以给出可选的上下文信息 I,例如代理周围的语义地图(人行道、道路边界等的注释)。 我们的目标是学习一个生成模型 pθ(Y|X, I),其中 θ 是模型参数。
在下文中,我们首先介绍所提出的智能感知转换器 AgentFormer,用于社会时间关系的联合建模。 然后,我们提出了一个随机多智能体轨迹预测框架,该框架联合建模所有智能体的潜在意图
3.1. AgentFormer:Agent-Aware Transformers
我们的 Agent-Aware Transformer AgentFormer 是一个模型,它可以同时从时间和社会维度的多智能体轨迹中学习表征,这与在不同阶段对两个维度进行建模的标准方法形成对比。 AgentFormer 有两种类型的模块——编码器和解码器,它们遵循原始 Transformer [47] 的编码器和解码器设计,但有两个主要区别:(1)它用时间编码器代替位置编码; (2) 它使用了一种新颖的智能体感知注意力机制,而不是缩放的点积注意力。 正如我们将在下面讨论的,这两个修改的动机是适用于 Transformer 的多智能体轨迹的序列表示。
多智能体轨迹作为序列 过去的多智能体轨迹 X 可以表示为序列 X = x -H 1 , 。 . . , x -H N , x -H+1 1 , . . . , x -H+1 N , . . . , x 0 1 , . . . , x 0 N 的长度 Lp = N × (H + 1)。 同样,未来的多智能体轨迹也可以表示为一个序列Y = y 1 1 , . . . , y 1 N , y 2 1 , . . . , y 2 N , . . . , y T 1 , . . . , y T N 长度 Lf = N × T。我们采用这种序列表示与 Transformers 兼容。 乍一看,我们似乎可以将标准 Transformer 直接应用于这些序列,以模拟时间和社会关系。 但是,这种方法有两个问题:(1)时间信息的丢失,因为 Transformer 在计算每个元素(例如 x t n )的注意力时没有时间概念。
序列中的其他元素; 例如,x t n 不知道x t m 是同一时间步的特征,而x t+1 n 是下一时间步的特征; (2) 代理信息的丢失,因为 Transformers 在对每个元素施加注意力时不考虑代理身份,并且同一代理的元素与其他代理的元素没有区别; 例如,当计算 xtn 的注意力时,x t+1 n 和 x t+1 m 被视为相同,忽略 x t+1 n 来自同一个代理而 x t+1 m 来自不同的代理 代理人。 下面,我们将介绍这两个问题的解决方案——(1)时间编码器和(2)代理感知注意力。
时间编码器 为了告知 AgentFormer 与轨迹序列中每个元素相关的时间步长,我们使用了一个类似于原始 Transformer 中位置编码的时间编码器。 我们不是根据序列中的索引对每个元素的位置进行编码,而是根据元素的时间步长 t 计算时间戳特征。 时间戳使用与位置编码相同的正弦设计。 我们以过去的轨迹序列X为例。 对于每个元素 x t n ,时间戳特征τ t n ∈ R dτ 定义为
公式(0)
其中 τ t n (k) 表示 τ t n 的第 k 个特征,dτ 是时间戳的特征维度。 时间编码器输出一个带时间戳的序列 X¯ 并且 X¯ 中的每个元素 x¯ tn ∈ R dτ 计算为 x¯ tn = W2(W1x tn ⊕ τ tn ) 其中 W1 ∈ R dτ ×ds 和 W2 ∈ R dτ ×2dτ 是权重矩阵,⊕ 表示串联。
图 2. 代理感知注意力的图示 掩码 M 允许根据第 i 个查询和第 j 个键是否属于同一个代理来不同地计算 A 中的注意力权重
代理感知注意力 为了在轨迹序列中保留代理信息,可能很容易采用与时间编码器类似的策略,例如代理编码器为序列中的每个元素分配基于代理索引的编码。 然而,使用这种代理编码并不有效,正如我们将在实验中展示的那样。 原因是,与自然排序的时间不同,代理之间没有先天排序,基于代理索引分配编码将打破代理所需的排列不变性,并在模型中创建对代理索引的人为依赖
我们通过提出一种新的智能体感知注意力机制,从不同的角度解决智能体信息的丢失问题。 代理感知注意力作为输入键 K查询 Q 和值 V,每个都使用多智能体轨迹的序列表示。 例如,让键 K 和值 V 是过去的轨迹序列 X ∈ R Lp×ds ,让查询 Q 是未来的轨迹序列 Y ∈ R Lf ×dp 。 回想一下,X 的长度为 Lp = N×(H+1),因为 X 包含 H + 1 个过去时间步长的 N 个代理的轨迹特征; Y 的长度为 Lf = N ×T,包含 T 个未来时间步长的轨迹特征。 代理感知注意力的输出计算为
公式(1,2,3,4)
其中 表示逐元素乘积,我们使用两组投影 {WQ self ,WK self } 和 {WQ other,WK other} 来生成投影键 Kself , Kother ∈ R Lp×dk 和查询 Qself , Qother ∈ R Lf ×dk 带键(查询)维度 dk。 注意权重矩阵 A 中的每个元素 Aij 表示第 i 个查询 qi 和第 j 个键 kj 之间的注意权重。 如图 2 所示,在计算注意力权重矩阵 A ∈ R Lf ×Lp 时,我们还使用了一个掩码 M ∈ R Lf ×Lp,定义为
公式(5)
其中 Mij 表示掩码 M 内的每个元素,1(·) 表示指示函数。 由于·mod N 计算查询/关键字的代理索引,如果第i 个查询qi 和第j 个关键字kj 属于同一代理,则Mij 等于1,否则Mij 等于0,如图2 所示 . 使用掩码 M,方程。 (2) 根据代理身份的一致性,不同地计算注意力权重矩阵 A 的每个元素 Aij:如果 qi 和 kj 具有相同的代理身份,则使用投影查询 Qself 和指定用于代理内注意力的密钥 Kself 计算 Aij( 代理给自己); 如果 qi 和 kj 具有不同的代理身份,则使用投影查询 Qother 和指定用于代理间注意(代理到其他代理)的键 Kother 计算 Aij。 在这以这种方式,代理感知注意力学习以不同于其他代理的元素的方式关注序列中同一代理的元素,从而保留代理身份的概念。 请注意,AgentFormer 仅使用代理感知注意力来替换原始 Transformer 中的缩放点积注意力,并且仍然允许多头注意力来学习分布式表示。
编码代理连接。 AgentFormer 还可以通过屏蔽未连接代理之间的注意力权重来编码基于规则的代理连接信息。
具体来说,我们定义如果两个代理 n 和 m 在当前时间(t = 0)的距离 Dnm 小于阈值 η,则它们是连接的。 如果代理 n 和 m 没有连接,我们在代理 n 的任何查询 qi 和代理 m 的任何键 kj 之间设置注意力权重 Aij = −∞。
3.2. 使用 AgentFormer 进行多智能体预测
在引入了用于建模时间和社会关系的 AgentFormer 之后,我们现在准备将其应用到基于 CVAE 的多智能体轨迹预测框架中。 正如在 Sec 开头所讨论的那样。 3、多智能体轨迹预测的目标是对以过去轨迹 X 和上下文信息 I 为条件的未来轨迹分布 pθ(Y|X, I) 进行建模。为了解释每个智能体未来行为的随机性和多模态,我们 引入潜在变量 Z = {z1, . . . , zN } 其中 zn ∈ R dz 表示代理 n 的潜在意图。 然后我们可以将未来的轨迹分布重写为
公式(6)
其中 pθ(Z|X, I) = QN n=1 pθ(zn|X, I) 是对代理进行分解的条件高斯先验,pθ(Y|Z, X, I) 是条件似然模型。 解决方程中的棘手积分。 (6),我们使用CVAE中的负证据下界(ELBO)Lelbo作为我们的损失函数:
公式(7)
其中 qφ(Z|Y, X, I) = QN n=1 qφ(zn|Y, X, I) 是对代理进行分解并由 φ 参数化的近似后验分布。 在我们的概率公式中,后验 qφ(Z|Y, X, I) 中所有代理的潜在代码 Z 是从所有代理的未来轨迹 Y 中共同推断出来的; 类似地,条件似然 pθ(Y|Z, X, I) 中的未来轨迹 Y 使用所有代理的潜在代码 Z 建模。 这种设计允许由 zn 表示的每个智能体的潜在意图不仅影响其自身的未来轨迹,还影响其他智能体的未来轨迹,这使我们能够生成具有社会意识的多智能体轨迹。 在描述了概率公式之后,我们现在介绍图 3 中概述的详细模型架构。
编码上下文(语义映射)。 如前所述,如果数据提供,我们的模型可以选择将上下文信息 I 作为输入。 在这里,我们假设 I ∈ R H0×W0×C 是当前时间步长 (t = 0) 周围智能体的语义图,带有注释的语义信息(例如,人行道、人行横道和道路边界)。 对于每个代理 n,我们旋转 I 以与代理的航向角对齐,并在代理周围裁剪图像块 In ∈ R H×W×C。 我们使用手工设计的卷积神经网络 (CNN) 从 In 中提取视觉特征 vn,稍后将被模型中的其他模块使用。
CVAE 过去编码器 过去编码器从多智能体过去轨迹序列 X 开始。 如果提供语义图 I,过去编码器将每个元素 x t n ∈ X 与相应的视觉特征 vn 连接起来代理人的 然后将新序列送入时间编码器以获得带时间戳的序列,然后将其作为键、查询和值输入到 AgentFormer 编码器。 编码器的输出是过去的特征序列 C = c -H 1 , 。 . . c -H N , c -H+1 1 , . . . c -H+1 N , . . . , c 0 1 , . . . , c 0 N 总结了过去的智能体轨迹 X 和上下文 I。
CVAE 之前 先验模块首先执行智能池化,从过去的特征跨时间步计算平均代理特征 Cn:Cn = mean(c −H n , . . . , c 0 n )。
然后我们使用多层感知器 (MLP) 将 Cn 映射到先验分布 pθ(zn|X, I) = N (µ p n , Diag(σ p n ) 2 ) 的高斯参数 (μ p n ,σ p n )。
CVAE 未来编码器 给定多智能体未来轨迹序列 Y,类似于过去的编码器,未来编码器将来自语义图 I 的视觉特征附加到 Y,并将结果序列提供给时间编码器以生成带时间戳的序列。 然后将带时间戳的序列作为查询输入到 AgentFormer 解码器以及作为键和值的过去特征序列 C。 我们在这里使用 AgentFormer 解码器,因为它允许 Y 的特征提取以 X 到 C 为条件,从而有效地对后验 qφ(Z|Y, X, I) 中的 X 条件进行建模。 然后,我们对 AgentFormer 解码器的输出序列执行跨时间步长的智能平均池化,以提取每个智能体的特征。 然后将每个代理特征输入到 MLP 以获得近似后验分布 qφ(zn|Y, X, I) = N (µ q n , Diag(σ q n ) 2 ) 的高斯参数 (μ q n ,σ q n )
CVAE 未来解码器 与原始的 Transformer 解码器不同,我们未来的轨迹解码器是自回归的,这意味着它一次输出一个轨迹,并将当前生成的轨迹反馈回模型以生成下一个时间步的轨迹。 这种设计以牺牲训练速度为代价减少了测试期间的复合错误。 从初始序列 (yˆ 0 1 , . . . , yˆ 0 N ) 开始,其中 yˆ 0 n = x~ 0 n(x~ 0 n 是 x 0 n 内的位置特征),未来解码器模块映射输入序列 (yˆ 0 1 , . . , yˆ 0 N , … . , yˆ t 0+1 1 , . . , yˆ t 0+1 N ) 并将输入序列增长为 (yˆ 0 1 , . . , yˆ 0 N , … . . , yˆ t 0+1 N )。 通过自回归应用解码器 T 次,我们得到输出序列 Yˆ = (yˆ 1 1 , . . , yˆ 1 N , . . , yˆ T 1 , . . , yˆ T N )。 在未来的解码器模块中(图 3(右)),我们首先形成一个特征序列 F = (f 0 1 , . . ,f 0 N , . . ,ft 0 1 , . . ,ft 0 N ) 其中 ftn = yˆ tn ⊕ zn,从而将当前生成的轨迹与相应的潜在代码连接起来。 潜在代码在训练期间从近似后验采样,但在测试时从轨迹采样器(如下所述)采样。 然后将特征序列 F 与语义地图特征连接起来并加上时间戳,然后作为查询输入到 AgentFormer 解码器以及作为键和值的过去特征序列 C。 AgentFormer 解码器使未来轨迹能够直接关注任何先前时间步长(例如,c -H 3 或 yˆ 1 2 )的任何代理的特征,从而允许模型基于整个代理历史有效地推断未来轨迹。 我们在 AgentFormer 解码器中使用适当的掩码来强制解码器输出序列的因果关系。
然后将输出序列的每个元素通过 MLP 以生成解码的未来代理位置 yˆ t n 。
因为我们使用高斯来模拟条件似然 pθ(Y|Z, X, I) = N (Yˆ, I/β),其中 I 是单位矩阵,β 是加权因子,方程中的第一项。 (7) 等于均方误差 (MSE):Lmse = 1 2β ky−Yˆ k 2 。
轨迹采样器 我们将多样性采样技术 DLow [59] 应用于我们的多智能体轨迹预测设置,并在训练我们的 CVAE 模型后使用轨迹采样器来生成多样化且合理的轨迹。
轨迹采样器生成 K 组潜在代码 {Z (1) , … . . , Z (K)} 其中每个集合 Z (k) = {z (k) 1 , . . . , z (k) N } 包含所有代理的潜在代码,可以被 CVAE 解码器解码为多代理未来轨迹样本 Yˆ (k) 。 每个潜在代码 z (k) n ∈ Z (k) 由高斯噪声 n ∈ R dz 的线性变换生成:
公式(8)
其中 A (k) n ∈ R dz×dz 是一个非奇异矩阵,而 b (k) n ∈ R dz 是一个向量。 等式 (8) 在 z (k) n 上诱导高斯采样分布 rθ(z (k) n |X, I) 。 分布以 X 和 I 为条件,因为其内部参数 {A (k) n , b (k) n } 由轨迹采样器模块(图 3)通过过去特征序列 C 和 MLP。 轨迹采样器损失定义为
公式(9)
其中 σd 是一个比例因子。 第一项鼓励未来的轨迹样本 Yˆ (k) 覆盖地面实况 Y。
第二个 KL 项鼓励每个潜在代码 z (k) n 遵循先验并合理; KL 可以通过分析计算,因为内部的两个分布都是高斯分布。 第三项通过惩罚小的成对距离来鼓励未来轨迹样本 Yˆ (k) 之间的多样性。 当用方程训练轨迹采样器时。 (9),我们冻结 CVAE 模块的权重。 在测试时,我们采样潜在代码 {Z (1) , . . . , Z (K)} 使用轨迹采样器而不是从 CVAE 先验采样并将潜在代码解码为轨迹样本 {Yˆ (1) , . . . , Yˆ (K)}

实验

数据集
我们在完善的公共数据集上评估我们的方法:ETH [38]、UCY [28] 和 nuScenes [3] 数据集。 ETH/UCY 数据集是行人轨迹预测的主要基准。 ETH/UCY 中有五个数据集,每个数据集都包含在具有丰富交互的多智能体社交场景中以 2.5Hz 捕获的行人轨迹。 nuScenes 是最近的大规模自动驾驶数据集,它由 1000 个驾驶场景组成,每个场景以 2Hz 进行注释。 nuScenes 还提供了具有 11 个语义类的高清语义地图。
指标 我们报告每个代理的 K 个轨迹样本的最小平均位移误差 ADEK 和最终位移误差 FDEK 与地面实况相比: ADEK = 1 T minK k=1 PT t=1 kyˆ t,(k) n − yt nk 2 , FDEK = minK k=1 kyˆ T ,(k) n −y T nk 2 ,其中 yˆ t,(k) n 表示代理 n 在时间 t 在第 k 个样本中的未来位置,y T n 是对应的 地面真相。 ADEK 和 FDEK 是轨迹预测的标准指标 [15, 44, 45, 39, 5]。
评估协议 对于 ETH/UCY 数据集,我们遵循先前的工作 [15、44、45、34、55],采用留一法进行评估。 我们根据观察到的 8 个时间步长(3.2 秒)的轨迹预测 12 个时间步长(4.8 秒)的 2D 未来轨迹。 与大多数先前的工作类似,我们不使用 ETH/UCY 的任何语义/视觉信息来进行公平比较。 所有指标均使用 K = 20 个样本计算。 对于 nuScenes 数据集,根据先前的工作 [39, 5, 8, 33],我们使用由 nuScenes 预测挑战提供的仅限车辆的 train-valtest 拆分,并根据观察到的轨迹预测 12 个时间步长 (6s) 的 2D 未来轨迹 4 个时间步长(2 秒)。 我们报告了使用 K = 1、5 和 10 个样本计算的指标的结果。
实施细节 对于所有数据集,我们在以场景为中心的坐标中表示轨迹,其中原点是 t = 0 时所有代理的平均位置。图 3 中的未来解码器输出到代理当前位置的偏移量 x~ 0 n ,所以 x 添加 ~ 0 n 以获得输出序列中每个元素的 yˆ tn。 根据先前的工作 [45, 55],采用场景的随机旋转进行数据增强。 我们的多智能体预测模型(图 3)在每个 AgentFormer 编码器/解码器中使用两个相同层的堆栈(在 [47] 中定义),丢失率为 0.1。 AgentFormer中keys、querys、timestamps的dk、dv、dτ维度均设置为256,前馈层的隐藏维度为512。multi-head agent-aware attention的head数为8。
模型中的所有 MLP 都有隐藏维度 (512, 256)。
对于 CVAE,潜在代码维度 dz 为 32,MSE 损失的系数 β 等于 1,我们将 Lelbo 中 KL 项的最大值(等式(7))剪裁为 2。
除了 Lelbo,我们还使用了 SGAN [15] 中的多样性损失。 代理连接阈值 η 设置为 100。我们使用 Adam 优化器 [20] 在 ETH/UCY 和 nuScenes 上训练 CVAE 模型 100 个时期。 我们使用 10−4 的初始学习率,每 10 个 epoch 将学习率减半。 更多细节,包括用于编码语义图的 CNN 和轨迹采样器的训练过程,可以在附录 B 中找到。
4.1. 结果
基线比较 在 ETH/UCY 数据集上,我们将我们的方法与当前最先进的方法(Trajectron++ [45]、PECNet [34]、STAR [55] 和 Transformer-TF [12])以及通用基线进行比较 – SGAN [15] 和索菲 [44]。 所有方法的性能总结在表 1 中,我们使用官方报告的结果作为基线。 我们可以观察到我们的 AgentFormer 实现了非常有竞争力的性能并获得了最好的 FDE。 特别是,我们的方法明显优于先前基于 Transformer 的方法 Transformer-TF [12] 和 STAR [55]。 由于 FDE 测量预测轨迹的最终位移误差,因此与 ADE 相比,它更强调方法预测遥远未来的能力。 我们相信我们的方法在 FDE 中的强大性能可以归因于 AgentFormer 的设计,它可以通过在推断代理的未来位置时直接关注任何先前时间步长的任何代理的特征来有效地模拟远程轨迹依赖性。
与 ETH/UCY 相比,nuScenes 中的轨迹要长得多,因为我们用更长的时间范围(6 秒)进行评估,并且车辆比行人快得多。 因此,nuScenes 对多智能体预测方法提出了不同的挑战。 在 nuScenes 数据集上,我们根据最先进的车辆预测方法评估我们的方法 – Trajectron++ [45]、MTP [8]、MultiPath [5]、Cover-Net [39]、DSF-AF [33] 和 DLow-AF [59]。 我们在表 2 中报告了所有方法的性能,其中 Trajectron++ 的结果取自 nuScenes 预测挑战排行榜,DLow-AF 的性能来自 [33],我们还使用其他基线的官方报告结果 . 由于尚未报告数量,因此无法获得某些基线的 FDE。 我们可以看到,我们的方法 AgentFormer 优于基线,尤其是强模型 Trajectron++ [45],在 ADE 和 FDE 中对于 5 和 10 个样本设置始终如一。
消融研究 我们进一步对 ETH/UCY 和 nuScenes 进行了广泛的消融研究,以调查关键技术组件在我们的方法中的贡献。 第一个消融研究探索了我们方法的变体,这些变体在我们的多智能体预测框架中使用单独的社会和时间模型来替换我们的联合社会时间模型 AgentFormer。 我们选择 GCN [23] 或 Transformer (TF) 作为社交模型,LSTM 或 Transformer 作为时间模型。 总共有 4 (2×2) 种社会和时间模型的组合。 消融结果总结在表 3 和 4 的第一组中。很明显,与我们对社会和时间维度联合建模的方法相比,单独的社会和时间模型的所有组合都会导致较差的性能。
第二个消融研究调查了 (1) 联合潜在意图建模、(2) 代理感知注意力和 (3) 语义图的作用,我们表示相应的变量蚂蚁作为“无联合潜在”、“无 AA 注意力”和“无语义图”。 我们进一步测试了一个变体“w/agent encoding”,我们用代理编码替换了代理感知注意力。 结果报告在表 3 和表 4 的第二组中。我们可以看到,与我们的完整方法相比,所有变体都导致性能显着下降。 特别是,变体“w/o AA attention”和“w/agent encoding”导致明显的性能下降,这表明代理感知注意力在我们的方法中是必不可少的,而代理编码等替代方案无效。
图 4. (a,c,d) 通过我们的方法预测的多智能体期货(绿色)的三个样本,它们表现出诸如跟随(A3 & A4)和避免碰撞(A1 & A2 in (a), A2 & © 中的 A3)。 (b) 样本 1 的注意力可视化。在预测目标(红色)时,模型更关注(较深的颜色)相邻代理的关键时间步长(转折点),并将注意力分散到目标过去的时间步长以推理动态。
轨迹可视化 图 4 (a,c,d) 显示了通过我们的方法预测的同一场景的多智能体未来的三个样本。 我们可以看到样本对应于不同的社会感知和非碰撞轨迹模式,并表现出跟随(A3&A4)和避免碰撞((a)中的A1&A2,(c)中的A2&A3)等行为 .
图 4 (b) 将样本 1 的注意力可视化,表明在预测目标(红色)时,模型更加关注相邻智能体的关键时间步长(转折点),并将注意力分散到目标过去的时间步长上 关于其轨迹的动力学和曲率的原因。
更多注意力可视化可以在附录 C 中找到。

结论

在本文中,我们提出了一种新的 Transformer,AgentFormer,它可以使用序列表示同时对多智能体轨迹的时间和社会维度进行建模。 为了在序列中保留代理身份,我们提出了一种新的代理感知注意机制,该机制可以与其他代理的特征不同地关注同一代理的特征。 基于 AgentFormer,我们提出了一个随机多智能体轨迹预测框架,该框架联合建模所有智能体的潜在意图,以产生多样化且具有社会意识的多智能体未来轨迹。 实验表明,我们的方法基本在具有挑战性的行人和自动驾驶数据集上改进了最先进的性能。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值