[VSP] Spatiotemporal module for video saliency prediction based on self-attention

Spatiotemporal module for video saliency prediction based on self-attention (sciencedirectassets.com)

1 Introduction

Video saliency prediction是预估动态场景下人眼凝视点的任务,可以应用于许多领域:视频压缩、视频目标分割、视频字幕。如何有效的学习上下文信息,并模拟人眼对于运动物体的视觉注意力便成为了待解决的问题。

许多先进的网络基于CNN-RNN结构,但是此类方法不便于捕捉视频中复杂的背景信息和帧间的变化。因此,仍然需要更多的研究来探索如何有效地提取显著信息,如何更好地利用上下文信息来预测图像序列中的显著性区域变化。另外,在任务驱动的场景中,人眼视觉注意力不仅仅与图片中的显著信息有关,也与任务相关。如何将提取出的特征与显著区域进行结合是一项困难的任务。注意力机制是一个很好的解决方案。利用注意力机制来模拟human visual system(HVS),可以忽略掉无关信息,对关键信息施加注意力。

本文提出了spatiotemporal Transformer-Encoder-based self-attention module(STSM),可以应用于任务驱动和数据驱动的视频。将任务驱动的human visual attention看成是一项像素级别的全局相关性评估,用transformer encoder来学习时空相关性。

为了以较低的计算代价提取并结合不同尺度的显著特征,设计了一个具有4个分支的multi-scale feature-fusion network(MFN)。特征图序列接着被送入Spatiotemporal Transformer Encoder,利用自注意力模块评估像素和显著区域之间的相似度,可以精确地得到任务驱动场景中人眼视觉注意力随环境的变化。

最后,引入DconvLSTM处理时间序列信息,学习视频中的时间上下文信息。

2 Method

2.1 multi-scale feature-fusion network

模型的第一部分需要从每一视频帧中提取综合的空间特征。

给定T帧视频H0*W0*3,首先输入两层3*3卷积(stride=2),得到H*W*C的特征图,H和W均为原始尺寸的1/4。然后输入一个包含多尺度并行层的子网络中。

子网络包括四个阶段:

第一个阶段是一系列卷积模块,此阶段中特征图的形状固定。

第二个阶段的第一层与前面类似,第二层将特征图的长和宽都减少1/2,并将depth增加到2C。因此第二阶段的输出是(H × W × C, H/2 × W/2 × 2C)。

第三阶段包括3层,与前类似,输出是(H × W × C,H/2 × W/2 × 2C,H/4 × W/4 × 4C)。

第四阶段输出(H × W × C,H/2 × W/2 × 2C,H/4 × W/4 × 4C,H/8 × W/8 × 8C)。

前一阶段的每层都连接到下一阶段的每一层:

用步长为1的卷积来连接相同分辨率的层;

连接到更高层次时,用卷积模块增加C,用下采样模块减小尺寸;

连接到更低层级时,用双线性上采样加大尺寸,用1*1卷积减小C。

在第四阶段,4层的特征图都经过上采样到H × W × 2C并进行concat,得到H × W × 8C。

2.2 Spatiotemporal Transformer Encoder

此部分用于结合时间和空间信息,同时处理时空信息,并添加位置信息。由于Transformer模块计算量比较大,首先利用一系列步长为2的卷积将 T × H × W × 8C 减小到 T × Htr × Wtr × d。

2.2.1 3D position encodings

将特征图flatten到 d × (T ∗ Htr ∗ Wtr),使之与Transformer Encoder的输入尺寸相容。

自注意力机制的输入序列丢失了空间结构信息,需要添加位置和时间信息,因此给特征图添加一个三维的position encoding。

2.2.2 Self-attention

2.3 DconvLSTM temporal prediction network

图3是传统的LSTM模型。

用空间卷积来代替矩阵相乘法,得到ConvLSTM:

2.4 Loss function

3 Experiments

Data sets

任务驱动:EYE TRACKING DATA

数据驱动:LEDOV DHF1K

3.1 Performance of video saliency prediction on natural and driving scenes

3.1.1 Performance on task of driving scene

3.1.2 Performance on task of natural scene with frequent motion in image sequence

3.1.3 Performance on task of natural scene with multi-category space

3.2 Ablation study

3.2.1 Attribution of each component

3.2.2 Ablation study for multi-scale feature-fusion network

3.2.3 Ablation study for Spationtemporal transformer encoder

3.2.4 Ablation study for DConvLSTM

3.3 Performance on hard samples

与其他基于计算机视觉的算法相比,我们从一个新的角度研究了人类视觉注意与图像特征之间的相关性,取得了相当好的效果。

然而,我们发现仅基于计算机视觉预测视频的显著性并不全面。如图11所示,五帧图像没有明显的差异和变化,但是注意区域却不同。这是因为除了视觉之外,还有许多因素会影响注意力,比如听觉。在这段采访视频中,人类的注意力集中在说话人的脸上,不同的音色意味着不同的说话人。基于计算机视觉的算法在预测采访视频的显著性方面存在局限性,因为它无法学习语音信息。在这一点上,我们可以应用多模态训练来学习多维显著性信息。例如,在模块中添加语音维度,以便网络可以学习与注意力相关的另一维度的功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值