《GDC — Generalized Distribution Calibration for Few-Shot Learning》FSL论文笔记(属于data augmentation)

这是篇22年投在Arxiv上的文章,写这篇笔记的时候还没有被期刊录用。看这篇文章是因为之前free lunch文章,这篇文章提出的GDC是对free lunch提出的DC的改进优化,这两种方法都是使用statistical techniques➕base class(large examples)来推测novel class的distribution,从而抽取新样本作为few-shot样本的补充。

0 Abstract

1.指出现有绝大部分FSL算法的2个局限性:

  • require the design of sophisticated models and loss functions,thus hampering interpretability.
  • employ statistical techniques but make assumptions that may not hold across different datasets or features.
    2.提出了广义抽样方法(generalized sampling method)——GDC(generalized distribution calibration)
    3.使用到了协方差收缩(covariance shrinkage),来预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
    4.不同于DC,GDC在训练数据集中样本类差异值较大(相似度较小)的情况下也表现的很好
    5.在常见few-shot数据集进行了实验,在跨域数据集也进行了实验
    Keywords:Few-Shot Learning,Distribution Calibration,Data Augmentation

1 Introduction

main contributions👇
1.introducing a principled approach。通过衡量base class和novel class之间的距离来对某个随机变量加权,从而获取分布的mean和covariance
2.variance shrinkage。预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
3.GDC适合于arbitrary feature extractors。方法是引入一般高斯化变换
4.欧几里得距离加权在。欧几里得距离加权中呈现单个缩放参数来获取更高的精度,而不是在特征空间中搜索多个距离度量(Euclidean, Mahalanobis, and generalized distances for novel class estimation)来提高精度。

2 Related Works

主要写下与DC方法的区别
**DC:**隐式地假设了baseclass中的各个类在语义上独立,即没有考虑baseclass和novelclass之间的相似度问题,不能用于任意特征提取器。
**GDC:**没有隐式假设,考虑了相似度,可以应用于任意特征提取器。

3 Algorithm

在这里插入图片描述

3.1 Gaussianization of the Data

方法假设输入特征都遵循了多元正态分布(multivariate normal distribution),所以应该先对初始输入特征处理下让他们更符合这个假设。
在这里插入图片描述

3.2 Proposed Random Variable

这里讲了novel class的分布是如何得来的。
在这里插入图片描述
这里超参m的作用是让距离近相似度高的样本点更加突出,距离远相似度低的样本点被削弱。类似于IDW(反距离插值inverse distance weighted)。

通过定义更高的幂值,可进一步强调最近点。因此,邻近数据将受到更大影响,表面会变得更加详细(更不平滑)。随着幂数的增大,内插值将逐渐接近最近采样点的值。指定较小的幂值将对距离较远的周围点产生更大的影响,从而导致平面更加平滑。
link👇
反距离插值(Inverse Distance Weighted)
基于K近邻的反距离权重插值——IDW

3.3 Shrinking the Covariance

当样本数目小于样本特征数目的时候,协方差矩阵不可逆,为了缓解这个问题、改善估计值、使GDC可以不受这个条件约束而适用于任何情况——采用协方差收缩。
GDC使用了协方差收缩的变体👇
在这里插入图片描述
α1、α2是超参数,σ1是平均对角线方差(average diagonal variance),σ2是平均非对角线方差(average off-diagonal variance)。
相关link👇
【sklearn第二十二讲】协方差估计
sklearn自学指南(part20)–收缩和协方差估计

3.4 Sampling the novel class

这里讲针对由一个数据点(即一个novel class point)产生的分布如何抽取新的数据点并作为支持集的补充。多个数据点则重复抽取过程即可。
在这里插入图片描述

4 Experiments

4.1 dataset

  1. miniImagenet
  2. CUB
  3. Stanford Dogs
  4. meta-tieredImagenet
  5. Cross Domain dataset,eg.miniImagenet—>CUB

4.2 feature extractor

在这里插入图片描述

4.3 performance

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.4 ablation study

在这里插入图片描述
可以看到超参α1的引入对性能提升最大,说明协方差收缩作用很大。

5 超参数

在这里插入图片描述
β:公式(2)(3)
m:公式(8)
k:K-NN
α1 α2:公式(9)
n:采样点数目
下图是超参m取值对采样点的影响,m=4,采样点与x-hat最接近。
在这里插入图片描述

6 Conclusion

在这里插入图片描述

7 补充link

1.weight decay的作用:防止过拟合,是正则化的一种方式。
pytorch之weight decay的作用和实现
2.协方差矩阵中奇异值出现的原因以及解决方式
https://blog.csdn.net/weixin_42849485/article/details/86682758
3.tranductive learning转导学习
转导学习 transductive learning
4.如何让扭曲歪斜的分布变换成正态分布或类似正态分布?
(1)turkey ladder of powers
Tukey Ladder of Powers / Power Ladder: Definition
(2)Yeo-Johnson变换
Yeo-Johnson变换

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值