Rethinking Data Augmentation

最新推荐文章于 2023-01-13 18:43:45 发布

Mr Sorry

最新推荐文章于 2023-01-13 18:43:45 发布

阅读量544

点赞数

分类专栏：学习笔记文章标签：深度学习 pytorch

本文链接：https://blog.csdn.net/weixin_45180140/article/details/117306565

版权

学习笔记专栏收录该内容

19 篇文章 1 订阅

订阅专栏

Rethinking Data Augmentation: Self-Supervision and Self-Distillation

Abstract

对进行了数据增强（翻转，裁剪等操作）的增强数据任然使用原始标签时，如果增强数据的分布与原始数据有较大的差距，就会降低网络的准确率。为了解决这个问题，作者提出了简单有效的方法：学习新样本的原始标签和自监督标签的联合分布。为了提高训练速度，又引入了知识传播技术——自蒸馏。

Self-supervised Data Augmentation

$x\in R^{d}$ : input

$y\in \{1,2,...,N\}$ : label

$L_{CE}$ : Cross Entropy loss

$\sigma(\cdot;u)$ : softmax classifier
$\sigma_i(z;u)=\frac{e^{u_i^Tz}}{\sum_k(e^{u_k^Tz})}$
$z=f(x;\theta)$ : embedding vector of $x$ , and f is a neural network with parameters $\theta$ ；

1. Data Augmentation and Self-Supervision

Data Augmentation

在有监督的情况下，传统的数据增强的目的是提高目标神经网络 $f$ 的泛化能力.

写出其目标损失函数：
$L_{DA}(x,y;\theta,u)=E_{t\sim T}[L_{CE}(\sigma(f(\hat{x};\theta);u),y)]\tag{1}$
$T$ 是数据增强后的数据分布；

Self-Supervision

最近的自我监督学习文献已经表明，可以通过预测从输入信号中获得的标签来学习高级语义表示，且无需任何人工注释。

在自监督模型中，用 $\hat{x}=t(x)$ 表示对 $x$ 做了 $t$ 类型的数据增强。

利用自监督标签的常用方法是优化原任务和自监督任务的两个损失，同时共享它们之间的特征空间，也就是一个multi-task learning work
$L_{MT}(x,y;\theta,u,v) = \frac{1}{M}\sum_{j=1}^{M}L_{CE}(\sigma(f(\hat{x}_j;\theta);u),y)+L_{CE}(\sigma(f(\hat{x}_j;\theta);v),j)\tag{2}$
${t_j\}_{j=1}^{M}$ 是一系列的预定义的数据增强方式， $M$ 是自监督标签的数量， $\sigma(\cdot;v)$ 是自监督分类器，且 $\hat{x}=t_j(x)$ .

2. Eliminating invariance via joint-label classifier

作者的目的是移除式子(1)和(2)分类器不必要的标签不变性

为了达到目的，作者使用了一个joint softmax classifier $\rho(\cdot;w)$ 来表现joint probability $P(i,j|\hat{x})=\rho_{ij}(\hat{z};w)=\frac{e^{w_{ij}^T\hat{z}}}{\sum_{k,l}(e^{w_{kl}^T\hat{z}})}$

因此目标函数可以写为：
$L_{SDA}(x,y;\theta,w)=\frac{1}{M}\sum_{j=1}^{M}L_{CE}(\rho(f(\hat{x}_j;\theta);w),(y,j))\tag{3}$
其中 $L_{CE}(\rho(\hat{z};w),(i,j))=-\log\rho_{ij(\hat{z};w)}$ .

当所有 $w_{ij} = u_i$ 时(3)就退化成了(1)，当 $w_{ij}=u_i+v_j$ 时就变成了(2)；
在这里插入图片描述

Aggregated inference

因为使用什么数据增强方法是已知的，所以预测时不必考虑所有的 $N\times M$ 个标签，只需要使用一个条件概率即可:
$P(i|\hat{x}_j,j)=\frac{e^{w_{ij}^T\hat{z}_j}}{\sum_k(e^{w_{kj}^T\hat{z}_j})}$
where
$\hat{z}_j=f(\hat{x}_j;\theta)$
针对所有的数据增强方式，作者将其条件概率聚合来增强分类器的准确率
$P_{aggregeted}(i|x)=\frac{e^{s_i}}{\sum_{k=1}^Ne^{s_k}}$
where
$s_i = \frac{1}{M}\sum_{j=1}^Mw_{ij}^T\hat{z}_j$

Self-distillation from aggregation

尽管这种聚合训练的方式效果很好，但其需要单网络 $M$ 倍的训练时间，为了解决这个问题，引入自蒸馏来将聚合网络蒸馏为一个单网络结构的网络

因此最后的目标函数为：
$L_{SDA+SD}(x,y;\theta,w,u)=L_{SDA}(x,y;\theta,w)+D_{KL}(P_{aggregated}(\cdot|x)||\sigma(f(x;\theta);u))+\beta L_{CE}(\sigma(f(x;\theta);u),y)\tag{4}$
式中的 $K L$ 散度就是用来自蒸馏的；

Mr Sorry

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Rethinking Data Augmentation

Rethinking Data Augmentation: Self-Supervision and Self-DistillationAbstract对进行了数据增强（翻转，裁剪等操作）的增强数据任然使用原始标签时，如果增强数据的分布与原始数据有较大的差距，就会降低网络的准确率。为了解决这个问题，作者提出了简单有效的方法：学习新样本的原始标签和自监督标签的联合分布。为了提高训练速度，又引入了知识传播技术——自蒸馏。Self-supervised Data Augmentationx∈Rdx\i
复制链接

扫一扫