Long-tailed Visual Recognition --Decoupled-Learning

摆烂办不到

已于 2022-10-16 14:20:26 修改

阅读量383

点赞数

分类专栏： DeepLearning 文章标签：机器视觉

于 2022-10-11 22:31:41 首次发布

本文链接：https://blog.csdn.net/wuyanxue/article/details/127272640

版权

DeepLearning 专栏收录该内容

17 篇文章 8 订阅

订阅专栏

《Decoupled representation and Classifier for long-tailed recognitions》-ICLR论文阅读笔记

看到有相当多的long-tailed visual recognition问题都会引用这一篇文章。该文阅读难度相当低，理解起来非常简单，但作者颠覆了已有的long-tailed(LT)识别问题。已有关于LT识别的研究基本聚集在end2end（jointly）learning，但本文提出了一种训练模式，即将end2end learning分解为两阶段的训练法：第一阶段学习表示（特征提取），第二阶段学习分类器。

学习表示

作者认为，学习LT数据的表示可以简单地利用抽样方法：令 $p_j$ 为第j个类别的抽样概率：
$p_j = \frac{n_j^q}{\sum_{i \in C} n_i^q}$
其中 $\in [0, 1]$ ， $n_j$ 为第j个类别的训练样本数。

文中介绍了4种抽样方法，基本都是根据 $q$ 的设置不同而不同。典型地两种：
instance-balanced sampling： $q = 1$ ，即每个样本抽样概率一样。
class-balanced sampling: $q = 0$ ，即每个类别的抽样概率一样。
用的比较多的是class-balanced sampling.

学习表示可以通过任意一个DCNN进行，令 $f(x;\theta)=z \in \mathbb{R}^d$ 为样本 $x$ 的表示。

学习分类器

作者考查了两种分类器：1.线性分类器；2. 近邻分类器。
近邻分类器就是计算出每个类的平均表示，然后计算一个样本到所有类的平均表示的距离，哪个距离最小就分到哪一类。
作者提出了三种线性分类器：

classifier re-training (cRT)：学习如下的线性分类器
$\mathbf{W}^\text{T}z + \mathbf{b}$
其中 $\mathbf{W} =\{w_j\} \in \mathbb{R}^{d \times C}$ ， $w_j$ 为第j个类的分类器。
cRT将学习 $\mathbf{W},\mathbf{b}$ ，以对 $z$ 进行分类。
$\tau$ -normalized。，考虑对 $w_j$ 进行规范化，
$\mathbf{\hat{W}}^\text{T}z$
其中 $\mathbf{\hat{W}} = \{\hat{w}_j\}$ ， $\hat{w}_j = \frac{w_j}{||w_j||^\tau}$ , $\tau \in (0, 1)$ 。
Learnable weight scaling (LWS). 令
$f_j = \frac{1}{||w||_j^\tau}$
它通过学习得到。而前一种方法是手动设置 $\tau$ 。

总结

有相当多的文献都将这个Decoupled-learning作为一种benchmark策略，特别是许多的jointly learning方法，在方法比较的时候都试图做Decoupled-learning以评估其有效性。比如Sinha等人做的CDB (IJCV)以及Difficulty-Net(arXiv)。

摆烂办不到

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Long-tailed Visual Recognition --Decoupled-Learning

有相当多的文献都将这个Decoupled-learning作为一种benchmark策略，特别是许多的jointly learning方法，在方法比较的时候都试图做Decoupled-learning以评估其有效性。比如Sinha等人做的CDB (IJCV)以及Difficulty-Net(arXiv)。
复制链接

扫一扫

专栏目录