scene-lstm翻译

最新推荐文章于 2022-07-24 23:11:40 发布

zzzzz忠杰

最新推荐文章于 2022-07-24 23:11:40 发布

阅读量488

点赞数 2

分类专栏：笔记

本文链接：https://blog.csdn.net/weixin_43889128/article/details/111276454

版权

笔记专栏收录该内容

75 篇文章 3 订阅

订阅专栏

摘要

我们开发了一种人体运动轨迹预测系统，该系统在静态拥挤场景中的预测过程中将场景信息（SceneLSTM）和人体运动轨迹（Pestestrian motion LSTM）结合在一起。我们叠加了两级网格结构（场景被划分为每个由SceneLSTM建模的网格单元，然后进一步划分为较小的子网格以获得更精细的空间粒度），并探索在网格单元中出现的常见人类轨迹（例如，向右或向左转到从小巷出来的人行道；或在公交车站/火车站停下来）。同时训练两个耦合的LSTM网络，行人运动LSTM（每个目标一个）和对应的Scene-LSTM（每个网格单元一个）以预测下一个运动。我们表明，这种公共路径信息极大地影响了未来运动的预测。我们进一步设计了一个场景数据过滤器，其中包含重要的非线性运动信息。场景数据过滤器使我们能够从网格单元的内存中选择与目标状态相关的信息的相关部分。我们在UCY [1]和ETH [2]数据集中的五个拥挤的视频序列上评估和比较了我们的方法与线性方法的两种版本以及几种基于LSTM的现有方法。
结果表明，与相关方法相比，我们的方法减少了位置偏移错误，与社交互动方法相比，减少了大约80％。

引言

人体运动轨迹预测是计算机视觉中一个具有挑战性的问题。给定视频序列中行人（目标）的过去运动轨迹，目标是预测他们的未来轨迹（连续二维位置的列表）。人体轨迹预测在现实世界中有许多应用，例如自动驾驶汽车[1]：需要能够预测行人在街上的未来位置，以避免发生事故；机器人导航系统[2、3]：通过识别周围的行人并做出运动决策以避免碰撞来帮助机器人在人群中导航；智能人类跟踪系统[4，5]：能够识别和跟踪场景中的所有行人。
在大多数情况下，很难预测未来的人类轨迹。未来可能会有很多轨迹，尤其是在空旷地区（校园，海滩，城镇广场等），人们可以随时自由移动和改变方向。社交互动也会影响下一个动作的决策。例如，一群过去一起散步的人可能会在不久的将来继续一起散步。结构可以定义场景中的特定路径。例如，走出小巷的人们（图1）倾向于向右/向左转，继续在人行道上行走，而不是直奔街道。
设计一种能够结合人类运动模型来理解场景背景的模型，以帮助准确地预测人类运动轨迹既是可取的也是困难的
为了应对这些挑战，已经提出了几种方法[4，7-13]。现有的基于LSTM的方法可以分为两种类型：社交交互方法，用于模拟人与人之间的社交交互；以及社交场景方法，它们同时对社交互动和场景环境进行建模。这些方法利用LSTM网络（一种特定类型的递归神经网络（RNN））的强大功能，该网络可以通过使用其记忆单元来表征单个目标的运动行为或社交互动行为。存储单元是引导LSTM解决许多与时间序列数据相关的问题的关键组件，例如机器翻译[14]，手写生成/识别[15]和图像生成[16]。在社交场景方法[10、13、22]中使用场景上下文来补充社交特征，以提高人类运动预测的准确性。这些方法假设人们在相似的场景布局中倾向于具有相同的行走模式。为了提取场景特征，[10，22]利用已经在图像分类[18，19]中成功使用的卷积神经网络（CNN）[17]。 CNN可以为新的场景图像生成相似的场景特征，并将其用作模型化人类运动行为的输入。
在本文中，我们提出并开发了一种称为Scene-LSTM的场景模型，该场景模型将场景分为相等大小的网格单元，这些网格单元进一步细分为子网格以在单元内提供更准确的空间位置。
每个网格单元（分配了一个存储单元）都由一个场景-LSTM。该系统学习场景中网格单元中的人类步行行为。网格单元存储器（SceneLSTM）与行人LSTM同时训练。利用网格存储单元中编码的人类常见动作，可以更准确地预测未来的人类位置。图1说明了我们的预测结果的示例。在训练步骤中学习受过训练的网格单元存储器（粉红色单元）。在测试步骤中，经过训练的场景信息用于正确预测目标将右转离开小巷（一条非线性轨迹）并继续在人行道上行走。
挑战在于，在给定的网格单元中，可能存在多种人类轨迹（不同的行走方式：不同的方向，速度和非线性程度）。我们实现了一个场景数据过滤器（SDF），让每个目标根据其状态选择网格单元内存的相关部分以预测其下一个位置。 SDF的主要组件是“硬过滤器”和“软过滤器”。网格单元将在训练阶段基于非线性运动信息收集数据。 “硬过滤器”的目标是允许“非线性”网格单元存储器影响人类轨迹的预测。
非线性网格单元是那些包含场景中非线性人类运动的网格单元（例如，网格单元内方向的改变）。然后，软过滤器会使用目标的当前位置及其状态信息作为激活，以从硬过滤器中选择相关的场景数据。然后，将最终过滤的场景数据与目标的运动结合起来，以预测该目标的下一个位置。
总而言之，本文的贡献是：
•与基于LSTM的传统人类步行模型同时学习了基于LSTM的新场景模型。我们展示了场景模型对测试视频序列中的人类轨迹预测的重大影响。
•我们实现了“场景数据过滤器”（SDF）模块，使用“硬过滤器”（用于非线性刺激）和“软过滤器”（用于选择预测目标轨迹的场景数据）来控制每个网格单元的影响。
•我们使用位置偏移量而不是先前研究中使用的绝对位置[7]-[10]对每个目标的步行行为建模。位置偏移已显示出可以在手写生成中产生良好的结果[15]，但是尚未应用于人体轨迹预测。
我们在第1.1节中定义了人体轨迹预测问题。在第2节中，我们回顾了相关工作。第3节介绍了我们的模型。第4节介绍了我们的结果，第5节介绍了结论和未来的工作。

问题定义

正在考虑的问题是在静态拥挤场景中人类运动轨迹的预测。让我们将Xi t =（xi t，yi t）定义为目标i在时间t的空间位置，将N定义为观察到的帧Tobs的行人数量。问题可以表述为：给定观察帧中所有目标的轨迹：{{xi t，yi t}}，其中t = 1，…，Tobs和i = 1,2，…，N，预测下一个位置对于每个目标，预测帧数为Tpred。

系统设计

我们将简要概述LSTM网络，然后概述我们的系统及其组件。
3.1 LSTM：回顾
我们将结合[7]中介绍的人体轨迹预测方法介绍LSTM。
LSTM网络[23]是一类递归神经网络（RNN）。 LSTM由存储单元𝑐，输入门𝒾，输出门ℴ和遗忘门forget组成。存储器单元存储并记住过去时间序列数据中的信息（状态）。输入门控制哪些新数据流入存储单元。输出门控制存储单元中数据的“提醒/记住”部分。输出门控制使用哪部分数据来计算输出（即隐藏状态ℎ）。在人体轨迹预测中，存储单元c用于对场景中每个目标的移动行为进行建模[7]。给定隐藏状态ht-1 i，存储单元ct-1 i以及目标i的当前位置Xt i =（xi t，yi t），基于LSTM的网络计算预测位置X̂t i =（x̂t i ，在时间t，每个目标i的ŷti）如下：
公式（2）
其中W表示LSTM单位的权重矩阵集。 W𝑥̂h是隐藏状态ht i和输出层X̂t i之间的权重矩阵。 bo是输出层的偏置向量。函数LSTM（∙）包含以下函数：
公式（34567）
其中𝒾𝑡，𝒻𝑡和ℴt表示输入门，在时间t忘记门和输出门。矩阵WAB表示层B和A之间的权重矩阵（例如，Wix是输入层Xt和输入栅极betweent之间的权重矩阵）。
σ（∙）表示S型激活函数，b项表示偏置矢量。我们坚持认为，仅靠LSTM网络单独建模目标的移动行为是不够的，因为将来目标的移动行为可能与过去有所不同，并且高度依赖于场景背景。在下一部分中，我们将讨论SceneLSTM模型的详细信息，并演示场景上下文对人体运动轨迹的影响。
3.2我们的模型概述
图2说明了我们的系统的概述，该系统包括三个主要部分：“行人运动”，场景模型和场景数据过滤器（SDF）。
在描述这些组件之前，我们将解释视频图像的预处理，以输入到系统中。
预处理步骤：我们首先将每个场景图像缩放为480x480分辨率，然后将结果图像划分为相等大小的网格单元（在我们的实验中为8x8），每个网格单元均由Scene-LSTM建模。我们将存储单元cj分配给单元gj，其中gj是场景的第j个网格单元的索引（线性索引）。每个网格单元进一步分为相等大小的子网格（在我们的实验中为4x4）。为每个目标i分配了一个存储单元ci，该存储单元用用于行人LSTM模型的零向量初始化。在训练过程中将更新网格单元的内存值。对于每个视频序列，我们提取几批T = Tobs + Tpre帧。我们从每批中提取每个目标的轨迹以用作地面真相。
3.3行人移动在给定当前存储单元ci t，隐藏状态hi t和目标i在时间t的空间位置Xt i =（xi t，yi t）的情况下，“行人移动”组件计算出预测位置X̂t i =（x̂i t，ŷit + 1）。与先前的方法[7-10,13,22]不同，我们输入距先前时间步长的相对距离（位置偏移）（Δxit = xi t-xi t-1，Δyit = yi t-yi t-1 ）到该网络组件中而不是绝对值（xi t，yi t）。绝对值（xi t，yi t）强烈偏向特定的场景布局，这会导致网络无法正确预测具有完全不同的场景布局的新场景中的人类轨迹。例如，如果在人们大多水平移动的场景上训练网络，则在测试过程中它将无法预测另一个场景中的垂直运动轨迹。另一方面，表示目标将从当前位置移动多远的相对距离（Δxit，Δyit）不依赖于场景布局。因此，通过使用相对距离作为输入，网络可以更准确地对目标的步行行为进行建模。给定输入Ii t =（Δxit，Δyit），我们计算预测的相对位置（Δx̂i t，Δŷit）如下：
公式（89101112）
其中ei t是嵌入的向量（高维空间中目标位置偏移的密集向量表示）。 Wie和Wof是权重矩阵。
Fi t是目标i的过滤后场景数据。 Fi t具有与hi t + 1相同的大小，将在3.4和3.5节中进行描述。预测的相对位置（Δxit，Δyit）由双变量高斯分布N（μit，σit，pi t）估算，该变量具有三个参数：平均值μit =（μxt，μyt）i，标准偏差σit =（σxt，σyt）i和相关系数pi t。
最后，通过公式（12）计算目标i在时间tis的预测位置。
3.4场景模型
“场景模型”负责训练网格单元的内存，以表征网格中的共同轨迹。该组件的输出是网格单元的隐藏状态hgi t，然后将其在“数据过滤”模块中进行过滤以获得Fi t。计算hgi t的步骤如下：•给定目标i在时间t的空间位置（例如，图2中的视频图像中的红色圆圈），则为位置Vi的单热点向量计算t。一个热门向量Vi t表示此目标相对于目标进入的网格单元的相对位置。Vi t是大小为16的向量，其值为[0，…1，…0]，其中1表示哪个子 -在当前网格单元中填充目标所占用的网格（网格单元中实心红色方块，图2）。
•接下来，将目标i hi t-1的先前状态与位置Vi t的当前单热点向量的级联用作输入，以计算此网格单元的状态：（hgj t，cgj t）= LSTM（（hgj t-1，cgj t-1），[Vi t，hi t-1]； Wgi）（13）其中[Vi t，hi t-1]表示Vi t和hi t-1的串联运算； Wgj表示网格单元gj的LSTM网络（图2中的蓝色矩形）中的权重矩阵集； hgj t−1是grid-cell的先前隐藏状态。
最初，每个网格单元的隐藏状态ℎ𝑔𝑗和存储单元𝑐𝑔𝑗被设置为零向量，并且它们的值通过训练过程被更新。包含每个目标the的场景信息的隐藏状态ℎ𝑔𝑗用作场景数据过滤器（SDF）模块的输入。
SDF负责选择ℎ𝑔𝑗的哪些部分会影响目标的运动。
图3显示了经过训练的网格单元（粉红色）的示例。这些单元记录有关场景结构或障碍物的常见人类路径，例如建筑物（图3a中的UCY-Zara01），雪上人行道（图3b中的ETH-Univ）或树木（图3c中的UCY-Univ）。。根据网格单元中常见的历史运动，网格的状态将有助于更准确地预测人类的轨迹。
3.5场景数据过滤器（SDF）
当在开放空间中通常在网格单元内并入各种轨迹时，或者目标可以不受任何场景约束自由移动时，网格单元的内存学习到的信息可能会混乱并且因此，对预测和调整目标的轨迹没有帮助。
为了解决这个问题，我们设计了“场景数据过滤器”（SDF）模块，该模块允许目标根据其状态Fi t从目标行走的隐藏状态hgj t中选择相关信息，即网格 -cell gj。
算法1描述了SDF计算。该模块由两个过滤器组成：硬过滤器和软过滤器。使用硬过滤器的想法是，我们仅允许来自非线性网格单元的场景数据流影响目标的运动预测。非线性网格单元是那些包含在训练阶段学习到的非线性人类轨迹的单元。每个目标轨迹（长度T）的非线性度Φ𝑖计算如下：
公式（14）
其中yo，ym，yT是轨迹起点，中间和终点的y轴位置。如果目标Φi大于定义的阈值（在我们的实验中为0.2），则目标i的轨道为非线性轨道。我们使用控制向量Kgj控制网格单元的硬滤波器。 K 1的值按照算法1中的步骤1到5进行计算。然后在步骤6中使用Kgj来计算滤波后的场景数据Fhi t。
来自硬滤波器的滤波后的场景数据Fhi t被传递到软滤波器以计算最终的滤波后的场景数据Fi t。
软过滤器负责选择目标Fhi t的相关部分并将其用作最终的过滤场景数据Fi t。该滤波器通过将嵌入向量eit和隐藏状态hit连接为激活来计算Fi t（使用S型激活函数）。
公式（15）
其中，W是权重矩阵的集合。 N是目标数量，T = Tobs + Tpred是用于训练的帧数。（xi t，yi t）是目标i在时间t的真实位置。
σit，μit，pi t是二元高斯参数。通过最小化L（W），我们最大化了预测位置（x̂i t，ŷit）接近真实位置Oi t + 1 =（xi t + 1，yi t + 1）的可能性。
预测轨迹（测试） 在测试过程中，我们将训练后的模型拟合到观察到的轨迹（t = 0，…，Tobs），计算目标的隐藏状态，并更新网格单元的内存以备下一步使用。然后，我们使用时间t = Tobs时每个目标的位置和隐藏状态来预测时间t = Tobs + 1……T时的下一个位置。

4.评估

4.1数据集和指标数据集：
数据集与相关的先前研究[7]，[8]，[10]一样，我们在两个公共可用的数据集上评估我们的模型：苏黎世联邦理工学院（ETH Zurich）提供的步行行人数据集[1] ]和塞浦路斯大学（UCY）[2]提供的人群数据。这些数据集包含5个视频序列（ETH-Hotel，ETH-Univ，UCY-Univ，ZARA-01和ZARA-02），共有1536名行人具有不同的运动方式。这些序列以每秒25帧（fps）的速度录制，并包含4种不同的场景背景。 UCY数据集仅在人们改变步行方向的控制点提供带注释的数据（行人的位置和身份）；我们在控制点处线性插值这些位置以获得每个帧中每个目标的位置。
指标我们使用以下三个指标评估系统：（a）平均位移误差（ADE）：在预测轨迹和真实轨迹的所有位置上的均方误差（MSE）。该指标首先在[2]中引入，随后在多个报告[7]，[8]，[10]中使用。
公式（16）
其中，X̂ i t和Oi t分别是目标𝑖在时间t的预测位置和真实位置。 N是目标数量，Tpred是预测的轨迹长度。
（b）平均非线性位移误差（NDE）：非线性预测轨迹和真实轨迹的所有位置的平均MSE；式（14）。
（c）平均最终位移误差（FDE）：所有人类轨迹的最终预测位置和最终真实位置的均方误差。
公式（17）
与[10]相似，我们报告了归一化范围[-1,1]中的所有预测误差，因为用于将像素值隐式定位到米的同形图矩阵不适用于UCY数据集。
与现有方法的比较：我们将模型的结果与以下方法进行比较：•线性模型[8]，[9]：假设行人呈线性运动，则使用线性回归器通过最小化均方误差来估计线性参数。
•LSTM [7]：在不考虑社交互动或场景信息的情况下对行人的状态进行建模。
•Social-LSTM [7]：使用“社交”池层对行人之间的社交互动进行建模。由于无法提供作者的代码，因此我们通过参考[8]中给出的代码来实现。与[8]不同，我们每时步提取一批由一个或多个人体轨迹组成的帧。然而，[8]通过随机跳到其他时间步跳过了几帧。
我们的批量提取方法包含更多数据，减少了过拟合问题，因此比[8]产生更好的结果。
•社会注意力[8]：使用结构神经网络和注意力模块来建模社会互动。我们使用作者的公开代码来生成“社会关注”的结果。
•SS-LSTM [10]：使用场景信息和社交互动来模拟人类的移动行为。我们使用本文中报告的结果与我们的方法进行比较，因为它们的代码不可用。我们报告了该方法的两个变体：（a）SceneLSTM-a使用来自所有网格单元的场景数据来预测人类运动，以及（b）Scene -LSTM-n仅使用来自非线性网格单元的场景数据。由于没有公开可用的实施方法，而且由于报告的结果以与其他报告的研究不同的度量标准来表示，因此我们无法将其与[9，12]的结果进行比较。我们打算在发布时提供实现。
4.2实施细节
在PyTorch深度学习框架[25]中实施。所有存储单元和隐藏状态向量的大小都设置为128。对于视频场景，我们使用8x8网格，对于网格单元使用4x4子网格。该网络使用Adam优化器[26]进行训练，该模型是随机梯度下降的扩展，可以在训练过程中更新网络权重。学习率为0.003，辍学值为0.2。梯度的全局范数的值固定为10，以确保稳定的训练。该模型在GPU Tesla P100-SXM2培训中进行了培训。训练阶段分为两个阶段：阶段1：将五个视频序列（ETH-Univ，UCY-Univ，UCY-Zara01和UCY-Zara02）索引为（i，j，k，l，m），训练并验证四个视频序列（Vi，Vj，Vk，Vl），并选择从该阶段生成的最佳权重集（最低ADE），以在阶段2中为其余（看不见的）视频序列Vm使用；这个过程称为“留一劳”。对于（i，j，k，l，m）的五个排列，重复此过程五次，以训练/验证阶段1中的四个视频，以便为剩余的每个未看到的场景获得在阶段2中使用的五组权重视频。对于每个排列，我们将四个训练视频的数据分为80％用于训练和20％用于验证步骤。
训练进行了100个时期（在更新权重之前，一次使用整个训练数据的次数）。
第2阶段：从第1阶段获得的五个排列中的每个排列，经过最佳训练的权重集用于训练第五个未观看的视频。在此阶段，第五个视频的50％用于进行10个时期的训练。
在此培训步骤中，我们将学习新的场景信息。然后，使用此过程中的最佳权重集来测试此视频序列的其余50％。
测试：使用阶段2的最终权重初始化系统。通过观察八帧（3.2秒）并以滑动窗口方式预测接下来的12帧（4.8秒），在每一帧重复测试过程。
我们对与我们的结果进行比较的所有方法（线性[9]，LSTM [7]，Social-LSTM [7]，Attention-LSTM [8]）实施了相同的培训和测试程序，因此比较结果与可能。 SS-LSTM [10]（没有实现）是一个例外，在这里我们使用他们论文中报告的结果。它使用类似于阶段1的培训过程。
4.3第2阶段的训练数据量的影响
在本节中，我们将探讨用于训练第2阶段的新（看不见的）视频的数据量对我们两个模型的测试准确性的影响 a和Scene-LSTM-n。图4显示了测试误差（ADE）在第二阶段中将训练数据量从0％调整为50％的函数。测试始终在视频的最后50％进行。在图4.c中，我们观察到随着训练数据量的增加，两种模型的平均预测误差都显着降低。在50％训练数据下，Scene-LSTM-a和Scene-LSTM-n的ADE误差分别降低了89％和68％，而0％降低了。图4，a和b显示，有些视频序列（例如UCY-Zara01和UCY-Zara02）仅需要通过观察轨迹获得少量场景信息即可获得良好的结果，而其他视频序列（例如ETH-Hotel ，ETH-Univ，UCYUniv）需要更多的场景信息才能更好地执行。这是因为ETH-Hotel，ETH-Univ，UCY-Univ的场景结构彼此不同，并且与UCY-Zara01和UCY-Zara02中的场景结构不同，它们具有相同的布局，并具有类似的常见人类动作优势。已经在第一阶段中学到了。
4.4与相关方法的比较定量结果
我们将模型结果与五种现有方法进行比较。根据每个视频序列的最后50％数据计算每个序列的测试结果。表1中的定量结果表明，我们模型的两个版本：Scene-LSTM-a和Scene-LSTM-n，在大多数视频序列的所有三个指标上均优于其他两个版本。与社交互动方法相比，在Scene-LSTM-a中，预测误差显着降低（即，Social-LSTM降低了68％，Attention-LSTM降低了83％）。与社交场景方法SS-LSTM相比，我们在大多数视频序列中实现了更好的ADE，NDE，在所有序列中实现了更好的FDE [10]。表1中的结果证实，我们的场景模型在预测每个目标的最终位置（FDE）方面比SS-LSTM更有效。
请注意，SS-LSTM同时使用了场景和社交功能，表1中报告的结果可从其已发表的论文（无法实施）。我们得出[9]中的相同结论，即Attention-LSTM和Social LSTM的表现不如LSTM模型好。
我们的模型的两个变体之间的比较：Scene-LSTM-a和Scene-LSTM-n：Scene-LSTM-n在观察到非线性运动的所有视频序列中产生更好的结果。一个例外是ETH-Hotel序列，其中大多数人线性移动，很少有非线性网格影响预测。我们的结果和观察结果使我们得出结论，SceneLSTM-a不能最好地预测非线性运动场景中的实际场景。如在Scene-LSTM-n中的非线性网格中那样，使用选定的网格像元来影响预测，可以生成更准确的轨迹。
定性结果图5显示了从五种方法加上地面真实情况预测的人类轨迹的示例。图5a显示了我们的两个模型都正确预测了目标移动到建筑物阴影的轨迹。线性模型和LSTM模型预测该目标会进入汽车或建筑物内部。我们预测更精确的轨迹，因为在Scene-LSTM的整个训练过程中，目标所处位置的网格单元已经看到了许多相似的路径，人们经常尝试避开阳光并进入建筑物的阴影。在图5b中，Scene-LSTM-n模型产生了最佳结果，并且最接近真实轨迹。在这种情况下，目标将离开小巷左转并在人行道上行走（正确的预测）。线性模型预测该目标将直接到达街道。 Scene-LSTM-a模型错误地产生了一条锐利的非线性轨迹，因为该区域中的所有网格单元均根据人行道上常见的人类运动进行了水平运动训练。在图5d中观察到类似的感觉，当大多数人走出小巷时，在人行道上向左转。
在图5c中，我们获得了准确的结果，人们经常从人行道右转进入建筑物，而所有其他方法都做出了错误的预测。图5e和f来自视频（ETH-Univ和ETH-Hotel），人们倾向于在场景的不同区域停下来（站在图5-f周围）或放慢速度（打开门，图5-e）。。
Scene-LSTM-n比其他模式更准确地合并了这些运动行为模式。

结论

在这项工作中，我们提出了两个新颖的Scene-LSTM模型来预测人类的轨迹。我们表明，场景信息对于预测人们的移动方式具有重要影响。我们通过为场景中的每个网格单元分配和学习存储单元来表征场景信息。存储单元能够记住有关人们过去在网格单元中的移动方式的有用信息，并使用该信息来预测未来的轨迹。我们的结果表明，我们的方法优于现有方法。
在未来的工作中，我们将研究将场景模型与社交模型融合以提高预测质量。我们打算进一步探索不仅在人类之间，而且在人类与其他静态或运动物体之间的社会互动。我们的目标是应用人体轨迹预测方法来解决计算机视觉问题，例如多目标和多摄像机多目标跟踪系统。