这是篇22年投在Arxiv上的文章,写这篇笔记的时候还没有被期刊录用。看这篇文章是因为之前free lunch文章,这篇文章提出的GDC是对free lunch提出的DC的改进优化,这两种方法都是使用statistical techniques➕base class(large examples)来推测novel class的distribution,从而抽取新样本作为few-shot样本的补充。
目录
0 Abstract
1.指出现有绝大部分FSL算法的2个局限性:
- require the design of sophisticated models and loss functions,thus hampering interpretability.
- employ statistical techniques but make assumptions that may not hold across different datasets or features.
2.提出了广义抽样方法(generalized sampling method)——GDC(generalized distribution calibration)
3.使用到了协方差收缩(covariance shrinkage),来预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
4.不同于DC,GDC在训练数据集中样本类差异值较大(相似度较小)的情况下也表现的很好
5.在常见few-shot数据集进行了实验,在跨域数据集也进行了实验
Keywords:Few-Shot Learning,Distribution Calibration,Data Augmentation
1 Introduction
main contributions👇
1.introducing a principled approach。通过衡量base class和novel class之间的距离来对某个随机变量加权,从而获取分布的mean和covariance
2.variance shrinkage。预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
3.GDC适合于arbitrary feature extractors。方法是引入一般高斯化变换
4.欧几里得距离加权在。欧几里得距离加权中呈现单个缩放参数来获取更高的精度,而不是在特征空间中搜索多个距离度量(Euclidean, Mahalanobis, and generalized distances for novel class estimation)来提高精度。
2 Related Works
主要写下与DC方法的区别
**DC:**隐式地假设了baseclass中的各个类在语义上独立,即没有考虑baseclass和novelclass之间的相似度问题,不能用于任意特征提取器。
**GDC:**没有隐式假设,考虑了相似度,可以应用于任意特征提取器。
3 Algorithm
3.1 Gaussianization of the Data
方法假设输入特征都遵循了多元正态分布(multivariate normal distribution),所以应该先对初始输入特征处理下让他们更符合这个假设。
3.2 Proposed Random Variable
这里讲了novel class的分布是如何得来的。
这里超参m的作用是让距离近相似度高的样本点更加突出,距离远相似度低的样本点被削弱。类似于IDW(反距离插值inverse distance weighted)。
通过定义更高的幂值,可进一步强调最近点。因此,邻近数据将受到更大影响,表面会变得更加详细(更不平滑)。随着幂数的增大,内插值将逐渐接近最近采样点的值。指定较小的幂值将对距离较远的周围点产生更大的影响,从而导致平面更加平滑。
link👇
反距离插值(Inverse Distance Weighted)
基于K近邻的反距离权重插值——IDW
3.3 Shrinking the Covariance
当样本数目小于样本特征数目的时候,协方差矩阵不可逆,为了缓解这个问题、改善估计值、使GDC可以不受这个条件约束而适用于任何情况——采用协方差收缩。
GDC使用了协方差收缩的变体👇
α1、α2是超参数,σ1是平均对角线方差(average diagonal variance),σ2是平均非对角线方差(average off-diagonal variance)。
相关link👇
【sklearn第二十二讲】协方差估计
sklearn自学指南(part20)–收缩和协方差估计
3.4 Sampling the novel class
这里讲针对由一个数据点(即一个novel class point)产生的分布如何抽取新的数据点并作为支持集的补充。多个数据点则重复抽取过程即可。
4 Experiments
4.1 dataset
- miniImagenet
- CUB
- Stanford Dogs
- meta-tieredImagenet
- Cross Domain dataset,eg.miniImagenet—>CUB
4.2 feature extractor
4.3 performance
4.4 ablation study
可以看到超参α1的引入对性能提升最大,说明协方差收缩作用很大。
5 超参数
β:公式(2)(3)
m:公式(8)
k:K-NN
α1 α2:公式(9)
n:采样点数目
下图是超参m取值对采样点的影响,m=4,采样点与x-hat最接近。
6 Conclusion
7 补充link
1.weight decay的作用:防止过拟合,是正则化的一种方式。
pytorch之weight decay的作用和实现
2.协方差矩阵中奇异值出现的原因以及解决方式
https://blog.csdn.net/weixin_42849485/article/details/86682758
3.tranductive learning转导学习
转导学习 transductive learning
4.如何让扭曲歪斜的分布变换成正态分布或类似正态分布?
(1)turkey ladder of powers
Tukey Ladder of Powers / Power Ladder: Definition
(2)Yeo-Johnson变换
Yeo-Johnson变换