【阅读】-- Robust Trajectory Forecasting for Multiple Intelligent Agents in Dynamic Scene

最新推荐文章于 2024-08-18 10:31:45 发布

Limy_追风少年

最新推荐文章于 2024-08-18 10:31:45 发布

阅读量418

点赞数 1

分类专栏： Trajectory Prediction 文章标签：自动驾驶

本文链接：https://blog.csdn.net/wl_glp/article/details/107581127

版权

本文提出了一个用于自动驾驶场景中多智能体的轨迹预测方法，通过交互网络、环境网络和预测网络结合，考虑全局时空交互、场景影响和智能体的过去轨迹，以实现更准确的轨迹预测。模型特别关注了社会行为、道路拓扑和多模式运动特性，以提高预测的鲁棒性。

摘要由CSDN通过智能技术生成

2020年美团的一篇论文pdf。

本文提出了一种用于动态场景中多个智能体的鲁棒轨迹预测的新方法。所提出的方法包括三个主要的相互关联的组件：用于全局时空交互特征提取的interaction net，用于解码动态场景的environment net（即agent的周围道路拓扑）以及prediction net 结合时空特征，场景特征，智能体的过去轨迹以及用于智能体的稳健轨迹预测的一些随机噪声。

Motivation
由于轨迹预测的几个属性，它仍然是一项具有挑战性的任务：1）当智能主体在公共场所移动时，它们经常与其他主体（例如人或场景中的障碍物）交互，这被称为social behavior。包括避免碰撞和成组移动在内的动作需要能够预测其他主体的可能移动或动作。社交互动可能不仅限于附近的agent或障碍。 2）主体的移动不仅取决于附近的主体，而且还受到周围物理场景（即动态场景 dynamic scene）的影响。场景的重要因素是道路拓扑，例如交叉路口，转弯和滑行道。某些道路拓扑会严重影响移动agent的速度和方向。智能体应始终在可行的地形上移动。 3）多模式运动（multi-modal motion）特性说明，由于存在多种合理的运动选择，因此交互主体可以遵循多个可行的轨迹。当两个独立的主体相互靠近时，可能会有许多不同的未来轨迹来避免碰撞，例如向左，向右移动或停止。

本文提出了一种新颖的鲁棒轨迹预测方法，用于动态场景中的多个智能体。本文的主要贡献概述如下。

我们通过带有软agent-tracking模块的交互网络对全局时空交互进行建模。交互网络不仅考虑agent的当前位置和交互，而且还考虑了LSTM在过去轨迹上的隐藏状态下agent之间的时间交互。

引入了一个环境网来对动态场景进行编码。首先将周围的道路拓扑（例如交互作用，转弯和滑行车道）转换为高清地图，然后通过预先训练的卷积神经网络对该地图进行编码。

我们的轨迹预测网结合了时空交互，环境特征和过去轨迹的特征，以预测所有主体的未来轨迹。注意模型用于自适应编码一个agent与其他agent的时空交互。

Related Work
RNN networks and trajectory prediction : VP-LSTM
Social behaviors and interactions : Social-LSTM
Graph models for trajectory prediction : STGAT

Approach
1. Problem Formulation
$Prediction_{\theta} : \{ \{X_i\}^{N}_{i=1}, X_{ego}, Y_{ego}\} \mapsto \{Y_i \}^N_{i=1}$
ego-agent id = 0. 与以前的研究不同，我们考虑在实际的自动驾驶系统上的预测问题，其中给出了自我代理人 $Y_{ego}$ 的计划轨迹以供参考。计划的轨迹可以提高预测准确性，因为它带来了有关未来的一些先验知识。

在这里插入图片描述
如图1所示，我们提出的方法包括三个相互关联的组件：用于时空交互特征提取的交互网络，用于解码动态物理场景（即周围道路拓扑）的环境探索网络以及轨迹预测网络。该方法的各个组成部分和实现细节将在下面详细描述。

2. Interaction Net
AIN (The Agent Interaction Network) 将所有代理的三个信息源作为输入：过去的轨迹，LSTM的隐藏状态以及ego-agent的计划轨迹。在获得这些数据的基础上，AIN计算了global时空中介之间的互动以及未来的自我他人互动。

Global spatio-temporal inter-agents interaction
给定在时间t所有agent的位置，我们利用linear and maxpooling Function生成大小为 $1×d_0$ 的全局位置特征，如下所示：
$e^{t}_{o,i} = W_o p^{t}_i + b_o , \\ o^t = Maxpool(Cat([{e^{t}_{o,0}}^T, . . . , {e^{t}_{o,N}}^T] , 1))$
其中 $W_o \in \mathbb{R}^{d_o×2}$ 和 $b_o \in \mathbb{R}^{d_o}$ 是权重矩阵和嵌入层的偏差。 Cat（[·]，1）表示级联函数，该函数将所有输入沿第一个维度合并。 Maxpool（·）函数沿相同的维度（即批处理维度）压缩拼接的数据。

为了解决时间问题，我们在预测网络中使用LSTM的隐藏状态来跟踪所有代理的位置。我们利用linear 和 maxpooling Function生成大小为 $1×d_0$ 的全局位置特征, 全局跟踪特征 $r（t）\in \mathbb{R}^{1×d_r}$

最低0.47元/天解锁文章

Limy_追风少年

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【阅读】-- Robust Trajectory Forecasting for Multiple Intelligent Agents in Dynamic Scene

Robust Trajectory Forecasting for Multiple Intelligent Agents in Dynamic Scene2020年美团技术团队的一篇论文pdf。本文提出了一种用于动态场景中多个智能体的鲁棒轨迹预测的新方法。所提出的方法包括三个主要的相互关联的组件：用于全局时空交互特征提取的interaction net，用于解码动态场景的environment net（即agent的周围道路拓扑）以及prediction net 结合时空特征，场景特征，智能体的过去轨
复制链接

扫一扫

专栏目录