ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos

最新推荐文章于 2024-05-29 17:02:10 发布

回想sy

最新推荐文章于 2024-05-29 17:02:10 发布

阅读量239

点赞数 1

分类专栏：强化学习深度学习论文阅读文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_49708196/article/details/124183257

版权

深度学习同时被 3 个专栏收录

8 篇文章 1 订阅

订阅专栏

论文阅读

5 篇文章 0 订阅

订阅专栏

强化学习

2 篇文章 0 订阅

订阅专栏

ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos

论文阅读笔记

1.abstract

action spot 最近被提出用来代替动作检测和关键帧检测的任务，目前最有效的 action spot 方法需要昂贵的 ground truth，由人类注释的搜索序列组成——这是一个关键限制。在本文中，我们提出了一种使用强化学习算法去做 action spot 任务的算法，而且仅使用动作检测注释中的时间片段来执行，从而为视频理解提供了一个有趣的解决方案。

2.Introduction

许多工作都对动作分析感兴趣，因为它又大量的应用，比如说我们可以根据这个功能对 youtube 视频索引，也可以使用手势控制机器人等等。

在本文的工作中，将动作检测视为一项单独的任务（而不是为了加速分类或者改进检测），所以任务结果的输出不是关键帧，而且没有任何注释，只包括一些动作片段。对于给定的动作片段，选择这个时间间隔的任何帧作为 spot frame 都是正确的。因此两个 spot outputs 可以不一样，但是都是正确的。当且仅当对于每个真实的动作片段，我们都确切的选出了一个帧来代表这个片段，并且给出了正确的标签，我们就认为是一次完美的预测。因此问题是不对成的，ground truth 是一组动作片段，而预测的结果是一组 spot frame。所以我们的评价指标使用 mean Average Precision(mAP)

本文的贡献总结为以下几点：

本文为 action spot 任务发布了一个新的度量指标
我们提出了一种使用深度强化学习算法去避免长时间的人工注释，并且我们用半监督的方式去提取 spot frame (训练中只使用动作片段)
本文提出了 ActionSpotter，一种强化学习算法，在观看尽可能少的帧的情况下提取 spot frame，基于 actor critic 架构的。
我们证明了这种算法比以往的 SOTA 算法跟适合 action spot 任务。

3.RELATED WORKS

4.Method

就像 introduction 中提到的那样，我们的目标是浏览一段 video 去选择能够很好的概括人类行为的 spot frame，因此我们还对优化 spot frame 的质量和跳过帧的比例（skip ratio）有兴趣。

在这里插入图片描述

A:Action spotting and proposed evaluation metric

spot frame： $C$ 是预先定义好的动作类别， $V=\{v_t\}_{t=1}^T$ 是包含 $T$ 帧的视频序列，包含了一系列有序的 $K$ 个我们感兴趣的 action proposal 集合 $Q=\{q_k|q_k=(a_k, [I_k, J_k])\}_{k=1}^K$ ，其中 $a_k\in C$ ， $I_k$ 和 $J_k$ 是这个 proposal 的起始时间和结束时间，然后我们的目标就是从中用概率选择出 spot frame $\mathcal{V}=\{(\tau_k,l_k, \alpha_k)\}_{k=1}^K$ , $\forall k\in \{1, \cdots, K\}, \tau_k \in [I_k, J_k],\alpha_k=a_k$ ， $l_k$ 是概率。

Evaluation Metric：本文使用的度量指标为 mAP，并且提出了一个新的 evaluation script publicly 以确保有一个公平的评测环境。

为了计算这个度量指标，对于每个预测的类别，spot frame 根据他们的可能性递减排序。然后迭代的计算他们的 spot frame和 ground truth 片段相交的时间戳。一个 spot frame 被标记为正确的当且仅当他的时间戳和一个 ground truth 片段相交，并且分类正确且是与这个 ground truth 片段第一个相交的 frame。一个 spot frame 没有匹配到任何 ground truth 片段或者不是第一个匹配的，则是 false alarm。最后，一个ground truth 片段如果没有任何的 spot frame 与其匹配，则被称为 missed detection。然后，对于没有一个动作类别，我们在每个位置计算精确率和召回率，画出 PR 曲线，计算曲线下的面积，然后计算所有类别的平均值就得到了 mAP。

在这里插入图片描述

B. ActionSpotter: Actor Critic based semantic spot frame extractor

本文构造了一个 pipeline called ActionSpotter，包括三个网络结构，这个 pipeline 在时间戳 $n$ 时给出的信息有：现在时刻的帧 $\tau_n$ ，memory 信息 $h_{n-1}$ ，并且还有一个 spot 集合 $\mathcal{V}_n$ 。

Memory：在时间戳 $n$ ，将现在时刻的帧 $v_{\tau_n}$ 输入到 backbone 网络 $B B$ 中，是基于 cnn 网络的，BB 提取出帧的空间信息 $f_n=BB(v_{\tau_n})$ 。这个网络可以使用的当前的 sota 算法。然后输入到 GRU 网络中，为了记住其中的时序信息，它的输入是前一时刻的输出 $h_{n-1}$ 和 $f_n$ ，得到输出 $h_n=GRU(f_n, h_{n-1})$ 。

Classification Network：CL 网络读取的是现在时刻的隐藏单元 $h_n$ ，输出是动作类别的概率分布 $p_n=CL(h_n)\in R^C$ 。预测出的动作标签就是 $\alpha_n=\underset{c}{argmax}(p_{n, c})$ 。

Spot Frame Selector Agent：输入是当前时刻的隐藏单元 $h_n$ ，输出是当前帧为 spot frame 的概率 $l_n=SF(h_n)$ ，然后更新 $\mathcal{V}_{n+1}=\mathcal{V}_{n}\cup \{\tau_n,l_n, \alpha_n\}$ ，在实验过程中，可以设置一个阈值 $\sigma$ ，超过阈值将其设置为 spot frame。

Browser Agent： $h_n$ 同时也输入到 BROW 网络中，这个网络是决定下一个访问的帧， $\tau_{n+1}=\tau_{n}+BROW(h_n)$ 。

Skip ratio：我们不可能遍历全部的图像帧，令 $\tau_N=T$ (T 是视频的全部帧数)，则 skip ratio 被定义为 $1-\frac{N}{T}$ 。

Global dynamic：

在这里插入图片描述

C. Training and objectives

网络 BB 是预训练好的，整个网络的训练目标是训练 $G R U, B R O W, S F, C L$ 网络的，然后处理视频 $V$ 的时候，根据策略 $\pi=BROW+SF$ 寻找 spot frame 。

Reward：当我们用 mAP 评估模型的表现时，我们也用 mAP 来指导模型的训练，根据 reward shaing 理论，我们可以添加一个额外的奖励以帮助算法更快的收敛

$r_{\pi, n}=\gamma mAP(\mathcal{V_n})-mAP(\mathcal{V_{n-1}})+\rho \mathcal{H}(\pi(n))$

其中 $\mathcal{H}(\pi(n))$ 是熵，有正则化的效果。所以累计奖励为 $R_{\pi, n}=\sum_{k=1}^{n}\gamma^kr_{\pi, k}$ ，其中 $\gamma$ 为折扣系数。

忽略熵的话，我们有 $R_{\pi, N}=\sum_{k=1}^{N}\gamma^kr_{\pi, k}=\gamma^{N+1}mAP(\mathcal{V}_N)-mAP(\mathcal{V}_0)$ ，其中 $mAP(\mathcal{V}_0)=0$ 。

Actor-Critic optimization：actor 网络通过极大化下面的式子来训练

$J_{actor}=E[R_{\pi, N}]$

critic 衡量当前的策略有多好并且产生值函数的估计 $critic(h_n)\approx E[R_{\pi, N}-R_{\pi, n}|h_n]$ ，因此损失函数定义为

$\mathcal{L}_{critic}=\frac{1}{2}||critc(h_n)-E[R_{\pi, N}-R_{\pi, n}|h_n||_2$

在强化学习中平衡 exploration 和 exploitation 是至关重要的，往奖励函数中添加一项即可平衡两者，就是 $\pi(n)$ 的熵。

在本文的算法中，actor 是结合 BROW 和 SF 的。

另一方面，CL网络的训练方法就像普通的监督学习多分类任务那样，使用交叉熵损失函数。

$L_{cls}=CE(p_n, a_{\tau_n})$

根据上面所有的 loss，我们得到该算法最终的 loss 函数

$\mathcal{L}_{gobal}=\mathcal{L}_{cls}+\lambda_1\mathcal{L}_{critic}-\lambda_2 J_{actor}$

其中 $J_{actor}$ 项是不可微分的，我们用 REINFORCE 算法取得到的其期望梯度

$\bigtriangledown J_{actor}=\bigtriangledown E[\sum_{n=1}^N\log (\pi(n))(R_{\pi, n}-E[R_{\pi, n}|h_n])]$

我们可以用蒙特卡洛采样方法近似这个等式，然后使用梯度下降最小化我们的 $\mathcal{L}_{gobal}$ 。

回想sy

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ActionSpotter Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos

ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action Spotting in Videos论文阅读笔记1.abstractaction spot 最近被提出用来代替动作检测和关键帧检测的任务，目前最有效的 action spot 方法需要昂贵的 ground truth，由人类注释的搜索序列组成——这是一个关键限制。在本文中，我们提出了一种使用强化学习算法去做 action spot 任务的算法，而且仅使用动作
复制链接

扫一扫