LaneRCNN 文献综述

摘要

预测动态参与者的未来行为是许多机器人应用(如自动驾驶)中的一项重要任务。 这是极具挑战性的,因为参与者有潜在的意图,并且他们的轨迹受其他参与者、他们自己和地图之间复杂的相互作用的支配。 在本文中,我们提出了以图为中心的运动预测模型 LaneRCNN。 重要的是,依靠专门设计的图编码器,我们学习了每个角色的局部车道图表示 (LaneRoI) 以对其过去的运动和局部地图拓扑进行编码。 我们进一步开发了一个交互模块,该模块允许在共享全局车道图中的本地图表示之间进行有效的消息传递。 此外,我们基于车道图参数化输出轨迹,这是一种更适合的预测参数化。 我们的 LaneRCNN 以分布式和地图感知的方式捕获演员-演员和演员-地图关系。 我们证明了我们的方法在大规模 Argoverse 运动预测基准上的有效性。 我们在排行榜上排名第一,并且明显优于之前的最佳成绩。

引言

自动驾驶汽车需要以安全舒适的方式在动态环境中行驶。 这需要预测其他代理的未来运动,以了解场景将如何演变。 然而,根据每个智能体的意图(例如转弯、换道),智能体未来的动作可能涉及复杂的动作,如让步、轻推和加速。 更糟糕的是,自我机器人无法先验地了解这些意图,并且智能体也可能会根据附近智能体的行为改变主意。 因此,即使可以访问代理的真实轨迹历史,预测他们的运动也非常具有挑战性,并且是一个未解决的问题。
通过利用深度学习,运动预测社区一直在稳步发展。 大多数最先进的模型都有一个相似的设计原则:使用单个特征向量来表征所有信息与演员相关,如图 1 所示,左。 他们通常首先将每个演员过去的动作和周围的地图(或其他上下文信息)编码为一个特征向量,该向量通过将二维光栅化提供给卷积神经网络(CNN)来计算 [59, 60, 41, 4 , 37, 8],或直接使用循环神经网络 (RNN) [62, 49, 16, 61, 18, 2]。 接下来,他们交换参与者之间的信息以对交互进行建模,例如,通过全连接图神经网络 (GNN) [54, 6, 41, 49, 7, 16] 或注意力机制 [26, 43, 52, 44 , 34]。 最后,他们通过回归头 [29, 49, 41, 59, 8, 30, 55] 从其特征向量预测每个演员的未来运动。
虽然这样的范式已经显示出有竞争力的结果,但它有三个主要缺点:1)用单个向量表示大空间区域的上下文信息,例如快速移动的演员在五秒内可能穿越一百米,是很困难的。 2)在参与者之间建立一个完全连接的交互图忽略了重要的地图结构。 例如,未受保护的左转车辆应该为迎面而来的车辆让路,而在相对车道上行驶的两辆空间附近的车辆几乎没有相互影响。 3)回归头没有明确利用车道信息,这可以为准确预测提供良好的归纳偏差。 作为一个结果,基于回归的预测器有时会预测出道路外的射击轨迹,这是不切实际的。
在本文中,我们提出了一种以图为中心的运动预测模型,即 LaneRCNN,以解决上述问题。 我们通过构建一个特定于参与者的图(称为 Lane-graph Region-of-Interest (LaneRoI))以及对过去运动和地图语义进行编码的节点嵌入,以分布式和地图感知的方式表示一个参与者及其上下文。 特别是,我们按照与该参与者相关的车道拓扑构造 LaneRoI,其中该图上的节点对应于这些车道沿线的小空间区域,边表示区域之间的拓扑和空间关系。 与使用单个向量来编码一个大区域的所有信息相比,我们的 LaneRoI 自然地保留了地图结构并捕获了更细粒度的信息,因为每个节点嵌入只需要表示一个小区域内的局部上下文。 为了对交互进行建模,我们将所有参与者的 LaneRoI 嵌入到全局车道图中,然后在该全局图中传播信息。 由于交互参与者的 LaneRoI 高度相关,因此这些参与者将共享全局图上的重叠区域,因此与不相关的参与者相比,在信息传播过程中具有更频繁的通信。 重要的是,在学习以地图为条件的交互时,此过程既不需要任何启发式方法,也不需要任何过于简化的假设。 然后我们以完全卷积的方式预测每个 LaneRoI 上的未来运动,这样沿着车道的小区域(LaneRoI 中的节点)可以作为锚点并提供良好的先验。 我们证明了我们的方法在大规模 Argoverse 运动预测基准 [10] 上的有效性。 我们在具有挑战性的 Argoverse 竞赛排行榜上获得第一名 [1],明显优于之前的结果。

相关工作

**运动预测:**传统方法使用基于人类知识的手工特征和规则来对运动预测中的交互和约束进行建模 [12, 11, 14, 21, 33, 57, 32],这些方法有时过于简单且不可扩展。 最近,基于学习的方法采用深度学习并显着优于传统方法。 给定演员和场景,深度预测模型首先需要设计一种格式来编码信息。 为此,以前的方法 [41, 4, 37] 通常将演员的轨迹光栅化为鸟瞰图 (BEV) 图像,不同的通道代表不同的观察时间步长,然后应用 CNN 和 RoI 池化 [39, 20]提取演员特征。 地图可以类似地编码 [59, 60, 8, 4, 49]。 然而,CNN 的方形感受野可能无法有效地编码演员运动 [29],这些运动通常是长曲线。 此外,地图光栅化可能会丢失车道拓扑等有用信息。 RNN 是一种紧凑且高效地编码参与者运动信息 [62, 49, 16, 61, 18, 2] 的替代方法。 最近,VectorNet [16] 和 LaneGCN [29] 将这种紧凑编码推广到映射表示。 VectorNet 将地图视为多段线的集合并使用 RNN 对其进行编码,而 LaneGCN 构建车道图并在该图上进行卷积。 与所有这些工作不同的是,我们在统一的图形表示中对角色和地图进行编码,这更加结构化和强大。
建模参与者之间的交互对于多代理系统也很重要。 开创性的基于学习的工作设计了一种社会汇集机制 [2, 18] 来聚合来自附近参与者的信息。 然而,这样的池化操作可能会丢失特定于参与者的信息。 到为了解决这个问题,注意力机制 [43, 52, 44, 48] 或基于 GNN 的方法 [60, 26, 29, 6, 41, 49, 7, 16] 构建演员交互图(通常与所有演员或 k- 基于最近邻居),并执行注意力或消息传递以更新演员特征。 还探索了社会卷积池 [62, 15, 47],它保持了参与者的空间分布。 然而,这些工作中的大多数都没有明确考虑地图结构,这在很大程度上影响了现实中参与者之间的互动。
为了生成每个参与者的预测未来,许多工作在条件变分自动编码器 (CVAE) 框架 [25, 40, 49, 41, 7] 下或使用多头/模式回归器 [29, 13] 对多模态期货进行采样 , 34]。 其他人输出离散的轨迹样本集 [60, 37, 9] 或占用图 [22, 42]。 最近,TNT [61] 同时独立设计了一个与我们类似的输出参数化,其中车道用作预测的先验。 请注意,除了参数化之外,我们还提供了一种新颖的图形表示和一种强大的架构,其性能明显优于他们的结果。
**图神经网络:**依靠图卷积和消息传递等算子,图神经网络 (GNN) 及其变体 [45、5、28、24、19、31] 将网格等规则图上的深度学习推广到具有不规则拓扑的图。 他们在为各种任务学习有用的图表示方面取得了巨大的成功 [35, 38, 50, 27, 17]。 我们从“自我图”的一般概念中汲取灵感,并提出了 LaneRoI,它专为车道图而设计,可捕获局部地图拓扑和单个演员的过去运动信息。 此外,为了捕捉参与者之间的交互,我们进一步提出了一个交互模块,可以在 LaneRoI 图之间有效地传达信息。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值