Detecting events and key actors in multi-person videos

最新推荐文章于 2022-09-22 09:47:53 发布

独孤的大山猫

最新推荐文章于 2022-09-22 09:47:53 发布

阅读量879

点赞数

文章标签： Detecting events and key actor

本文链接：https://blog.csdn.net/xiqi4145/article/details/80074759

版权

摘要：涉及到多个人物的事件识别是一个有挑战性的任务，在一个有许多人活动的场景中，往往只有一小部分人对具体的事件起到作用。论文中，我们提出了一个能在有多个人的视频中，学习检测事件，并自动的关注到和事件发生最相关的那部分人的模型。我们的模型在训练和测试时没有使用具体的注释来告诉网络那些人是谁，他们在哪。实际上，我们跟踪视频中的人，然后用RNN来呈现跟踪的特征。我们学习时变的注意力权重，以便在每一时刻将这些特征结合起来。然后用另外一个RNN来做事件的检测和分类。后面就是说涉及到多人的视频集较少，他们自己做了一个数据集(257场比赛，14K个标注，一共有11个事件类别)，然后用他们的网络去测试事件的分类和检测比state of the art的效果要好。最后强调注意力机制能够持续的关注定位相关的球员。

引言：视频事件的检测与识别受益于最近的大规模数据集和模型。然而，这些视频中仅涉及到单个人的动作识别和检测。视频检测中同等重要的一个问题是多人的事件检测。在这个背景下，我们提出了一个新的数据集和模型。

我们的视频拍摄于运动场、商场和其他涉及到多人活动的地方。视频中，大多数人在做着某些事，但是只有一小部分人涉及到具体的事件中。比如，在一场篮球赛中，一个投篮事件只由具体的一个或两个人完成。并且，我们为了识别这个事件，把那些关键的球员分离出来很重要。

标注视频中的事件代价很大，需要耗费很大的精力做很枯燥的事情，因此我们需要一个在训练阶段不需要标注能，并且能识别关键人物的模型。在这篇论文中，我们提出了一个能关注主要actors的模型来分类事件的方法。我们并不需要事先告诉这个模型这个actor是谁，他在哪。

最近，一些论文提出对固定输入到固定输出使用注意力模型。例如，将句子由一种语言翻译成另外一种语言，注意输入中的不同单词，在图像不同区域产生对应的字幕，在视频不同帧处产生对应的字幕。

在我们的工作中，我们使用注意力机制来决定动作发生时最相关的人是哪一个。这种注意力会随着时间而改变，因此我们结合了时间和空间上的注意力。注意，尽管人物检测在不同帧间的会有所不同，但是可以通过跟踪的方法建立他们的联系。我们将会展示如何使用RNN来呈现每次跟踪的信息。注意力模型负责选择每帧中最相关的轨迹，并且能够将关键的actor分离出来，结果显示，我们的模型在事件识别方面有更好的性能。

为了对我们的方法进行评估，我们需要大量涉及多个人的视频。之前的动作识别视频集大多只涉及到一个或者两个人，涉及到多人的很少。因此，我们收集了自己的数据集。我们提出了一个每帧都带有注释的涉及到十一个事件类别的篮球视频，一共257个视频，每个视频时长1.5小时。

文字太多，直接说文章亮点和关键。

论文的贡献：

1、制作了一个新的、涉及多人的大规模篮球运动数据集。(有14000个annotation)

2、用实验表明了自己的方法比当前主流的方法要好。(领域：standard task of classifying isolated clips and of temporally localizing events within longer,untrimmed videos.)

3、即使在训练集中没有事先告诉哪个player和event相关，网络也能够自己attend to最 relevant 的player.

实验方法：

1、将篮球比赛中的event分了11个class，投三分成功、投三分不成功、罚球成功、罚球不成功、上篮成功、上篮不成功、投二分成功、投二分不成功、扣篮成功、扣篮不成功、抢断，一共十一个类别。

2、定义好事件的起始和结束阶段，比如球落地、球进筐都可以定义为事件的结束。

3、将video分成212个训练集，12个验证集（不会更新参数，主要是验证有没有过拟合），33个测试集。

4、用下图的方法来确定在某一个event发生时的 relevant players

可以理解为： observe the players participating in the event .

5、特征提取：每一个视频帧用1024维度的向量表示，是Inception7网络最后一个全连接层的激活值。对于第t帧第i个球员，2805维的特征向量包含了1365维的appearance feature,1440维度的空间信息。

6、计算方法：结合上图来理解下面2个公式

定义loss : ，如果判断的结果属于k，yk就为1，否则为负一。

Attention 模型

Attention模型的主要作用在于识别主人物并增大他在计算event state中所起的作用，在这里会利用一个softmax函数来实现上述的功能。论文提出了两种思路，分别是对每个人物进行跟踪的模型以及不跟踪的模型。

跟踪模型

利用KTL tracker和图匹配找到每帧对应的人物，并为每个人物建立一个BLSTM网络，用于计算hidden state ，得。计算softmax函数分配每个人物在每一帧的权重，从而识别关键人物，如下计算

其中是一个多层感知机。

非跟踪模型

直接使用替代，可以得到计算方法为

实验结果对比：

独孤的大山猫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Detecting events and key actors in multi-person videos

摘要：涉及到多个人物的事件识别是一个有挑战性的任务，在一个有许多人活动的场景中，往往只有一小部分人对具体的事件起到作用。论文中，我们提出了一个能在有多个人的视频中，学习检测事件，并自动的关注到和事件发生最相关的那部分人的模型。我们的模型在训练和测试时没有使用具体的注释来告诉网络那些人是谁，他们在哪。实际上，我们跟踪视频中的人，然后用RNN来呈现跟踪的特征。我们学习时变的注意力...
复制链接

扫一扫