Data Augmentation for Video Recognition 论文笔记

Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition

ECCV 2020

论文链接: https://arxiv.org/abs/2008.05721

一、 Problem Statement

图像识别中数据增强的目的是通过学习空间不变特征来增强泛化能力。比如,geometric (cropping,flipping,rotating等),photometric (brightness,contrast,color等),transformation,这些都可以对数据集中的不确定方差进行建模。尽管在图像识别中通过许多算法进行了改进,但在视频识别中对数据增强和正则化的研究却很少。

二、 Direction

在本文中,作者扩展了两个最近被广泛研究的空间增强技术的例子: 数据级增强和数据级混合。

  • 对RandAugment的一个时间为度上的拓展,命名为RandAugment-T。
  • 提出CutOut,MixUp,和CutMix在时间维度上的拓展。即对样本进行deleting,blending和cut-and-pasting。

三、 Method

1. 时间维度上的数据增强

作者拓展了RandAugment:

在视频剪辑中从第一帧到最后一帧的两个量级之间进行线性插值。 但是,“旋转”、“剪切-x”、“剪切-y”、“平移-x”和“平移-y”可以建模随时间变化的几何变换,例如摄影机或对象移动。 日光化、颜色、后期处理、对比度、亮度和锐度可以模拟光度变换,例如由于相机中的自动拍摄模式而导致的亮度或对比度变化。 其余操作(标识、自动对比和均衡)没有在帧之间变化。

在这里插入图片描述

2. 时间维度上的删除,变形和裁剪-粘帖

对CutOut,MixUp,CutMix,等数据增强方法在视频上的探索。

作者提出了时间维度上的拓展,FrameCutOut,FrameCutMix,和空间与时间维度上的拓展,CubeCutOut,CubeCutMix。也提出了FadeMixUp,混合比随时间帧平滑变化。

它们具体的说明如下:

  • CutOut encourages the network to better use the full context of the images, rather than relying on a small portion of specific spatial regions. Similarly, FrameCutOut encourages the network to better use the full temporal context and the full spatiotemporal context by CubeCutOut。

  • CutMix is designed for the learning of spatially localizable features. Cut-andpaste mixing between two images encourages the network to learn where to recognize features. Similarly, FrameCutMix and CubeCutMix are designed for the learning of temporally and spatiotemporally localizable features in a video.

  • FadeMixUp can be modeled for temporal variations and can learn temporally
    localizable feature without sharp boundary changes, like other cut-and-pasting
    algorithms.
    Because many videos include these overlapping effects at the scene
    change, FadeMixUp can be applied naturally

最终上面的方法可以总结为下表:

3. 实验结果

作者使用SlowFast-50,64 temporal frame作为backbone。作为baseline,应用基本数据增强,例如大小为160的随机裁剪、视频短边[160, 200]之间的随机缩放抖动以及随机水平翻转。

结果表明:

  • 单独应用RandAugment可显著提高识别性能。 如果使用RandAugment-T会有更好地性能。
  • 在有限数量的训练数据集中,删除pathes、frames或spatiotemporal会降低识别性能。
  • temporal and spatiotemporal扩展策略的性能优于spatial-only混合策略。由于时间混合期间对象遮挡的概率低于空间混合期间,FrameCutMix的性能得到了最大的改善。
  • 与删除、剪切和粘贴增强相比,混合显示了最好的性能。由于训练数据的数量有限,样本的线性凸组合可以轻松有效地扩充样本空间。

为什么提升不是很大?

  • 缺少训练数据
  • 缺少时间上的扰动
  • 用于实验的数据集由剪辑过的视频组成

四、 Conclusion

对视频识别数据进行数据增强。

Reference

无监督的数据增强是一种用于一致性训练的技术。在机器学习任务中,一致性训练是指通过使用多个不同版本的输入数据来增强模型的鲁棒性和泛化能力。 传统的数据增强技术通常需要手动标注数据,并提供给模型进行有监督学习。然而,当可用的标注数据有限或者成本较高时,无监督的数据增强技术可以用来增加训练数据的数量和多样性,从而改善模型的性能。 无监督的数据增强技术通过对原始数据进行一系列变换和扰动来生成新的训练样本,而这些变换和扰动不需要额外的标注信息。这些变换可以包括图像翻转、旋转、缩放、平移、加噪声等等。通过这种方式,无监督的数据增强可以从有限的训练样本中生成大量的人工样本,有效地扩展了训练数据的规模和多样性。 无监督的数据增强可以用于各种机器学习任务,如图像分类、目标检测、语义分割等。通过在一致性训练中使用无监督的数据增强,模型可以学习到不同版本的输入数据之间的一致性,并提高对于噪声和变化的鲁棒性。例如,在图像分类任务中,模型可以通过看到同一张图像在不同变换下的预测结果来学习更稳定和一致的特征表示。 总之,无监督的数据增强是一种有效的技术,可以通过生成大量的人工训练样本来改善模型的性能。在一致性训练中,无监督的数据增强可以帮助模型学习到不同版本的输入数据之间的一致性,从而提高模型的鲁棒性和泛化能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值