Temporal Relational Reasoning in Videos（论文笔记）

Gεorge

已于 2023-12-27 10:36:36 修改

阅读量55

点赞数

分类专栏： paper览胜文章标签：计算机视觉深度学习

于 2021-10-31 14:59:19 首次发布

本文链接：https://blog.csdn.net/weixin_43883362/article/details/121063987

版权

paper览胜专栏收录该内容

8 篇文章 1 订阅

订阅专栏

文章目录

简介
相关工作
TRN模型
实验
总结

原文链接： https://openaccess.thecvf.com/content_ECCV_2018/html/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.html

简介

TRN方法旨在学习和推理视频帧之间在多尺度上的时间段（temporal）独立性，进而理解视频时间片段之间的关系，最终得到理解视频语义的目的。
动作识别是计算机视觉领域核心课题之一，视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作，而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块，可以用于任何CNN网络，作者构建基于TRN的模型，在三个动作识别数据集（Something-Something, Jester, and Charades)上进行了测试，都取得了很好的结果。

TRN模型

在这里插入图片描述

定义时间关系

在这里插入图片描述
输入是视频V，其中包括n个选中的有序帧，即：V = { $f_1, f_2, ..., f_n$ }, 其中的 $f_i$ 是视频第i帧的表示，例如：某个CNN网络的输出。 $h_{\phi}$ 和 $g_{\theta}$ 函数融合不同帧的特征，这里是使用简单的MLP。帧的采样采用均匀采样，简化计算。
可从两帧拓展到三帧：
在这里插入图片描述

多尺度时间关系

在这里插入图片描述
每个 $T_d$ 所有独立的 $h_{\phi}$ 和 $g_{\theta}$ ,其中对于每个 $T_i$ ，其都是可微的。

高效训练和测试

对于d<N的情况，如果每个d片段都采样的话，数据量和计算量会非常大，为了减少计算量，本文采取了如下采样步骤：

首先从视频中均匀选出N个帧， $V_N^* \supset V$ ，然后使用 $V_N^*$ 来计算 $T_N(V)$ ；
对于每个d<N, 随机选择k个长度为d的子集， $V_{kd}^* \supset V_N^*$ ，这些数据被用于计算 $T_d(V)$
测试阶段，将带TRN的网络与队列结合，来处理视频流。队列用于缓存从视频流中等距取样得到的CNN特征，之后这些特征被进一步组合到不同的关系组（即 $T_i$ )中。由于每个CNN特征在视频流中只需要提取一次，因ICTRN网络很容易应用于实时视频处理。

实验

数据集：
在这里插入图片描述

网络结构和训练

采用在ImageNet上预训练的BN-Inception网络作为基础框架，保持TRN模块的结构和超参数在三个数据集中都相同，设置k=3（是每个关系中的采样次数）。 $g_\phi$ 函数是一个双层MLP，每层256节点。 $h_\theta$ 是单层MLP，节点数和每个数据集的类别数相同。CNN特征取自BN-Inception网络的倒数第二层。TRN模块的分组从2帧到8帧，更高的帧数意味着性能的边际改善和效率的降低。

结果

S-S数据集
在这里插入图片描述
Jester数据集

Charades数据集：

例子：

TRN中视觉常识性知识的解释

TRN相对于其他视频分类模型更具可解释性。以下从四个方面来探究。
（1）代表性帧
在这里插入图片描述
（2）时间段对齐

（3）时间片段顺序对于动作识别的重要性

（4）早期动作识别

总结

本文构建的TRN模型，只需要离散的视频帧这一输入数据，就可以得出有效的视频语义，可用于视频动作识别。

Gεorge

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Temporal Relational Reasoning in Videos（论文笔记）

文章目录简介原文链接： link简介TRN方法旨在学习和推理视频帧之间在多尺度上的时间段（temporal）独立性，进而理解视频时间片段之间的关系，最终得到理解视频语义的目的。动作识别是计算机视觉领域核心课题之一，视频片段间的关系对于动作识别至关重要。动作识别的难点在于选择合适的时间尺度来描述动作，而此前许多技术都是使用静态帧和光流法等来实现动作识别。TRN是一个即插即用型的模块，可以用于任何CNN网络，作者构建基于TRN的模型，在三个动作识别数据集（Something-Something, Jes
复制链接

扫一扫