《GDC — Generalized Distribution Calibration for Few-Shot Learning》FSL论文笔记(属于data augmentation)

脑瓜嗡嗡0608

已于 2023-02-13 16:09:25 修改

阅读量338

点赞数 2

分类专栏： FSL Paper Notes 文章标签：论文阅读人工智能

于 2023-02-13 16:06:08 首次发布

本文链接：https://blog.csdn.net/weixin_53356651/article/details/129008110

版权

FSL Paper Notes 专栏收录该内容

10 篇文章 1 订阅

订阅专栏

这是篇22年投在Arxiv上的文章，写这篇笔记的时候还没有被期刊录用。看这篇文章是因为之前free lunch文章，这篇文章提出的GDC是对free lunch提出的DC的改进优化，这两种方法都是使用statistical techniques➕base class(large examples)来推测novel class的distribution，从而抽取新样本作为few-shot样本的补充。

0 Abstract

1.指出现有绝大部分FSL算法的2个局限性：

require the design of sophisticated models and loss functions,thus hampering interpretability.
employ statistical techniques but make assumptions that may not hold across different datasets or features.
2.提出了广义抽样方法(generalized sampling method)——GDC(generalized distribution calibration)
3.使用到了协方差收缩(covariance shrinkage)，来预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
4.不同于DC，GDC在训练数据集中样本类差异值较大（相似度较小）的情况下也表现的很好
5.在常见few-shot数据集进行了实验，在跨域数据集也进行了实验
Keywords:Few-Shot Learning,Distribution Calibration,Data Augmentation

1 Introduction

main contributions👇
1.introducing a principled approach。通过衡量base class和novel class之间的距离来对某个随机变量加权，从而获取分布的mean和covariance
2.variance shrinkage。预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)
3.GDC适合于arbitrary feature extractors。方法是引入一般高斯化变换
4.欧几里得距离加权在。欧几里得距离加权中呈现单个缩放参数来获取更高的精度，而不是在特征空间中搜索多个距离度量（Euclidean, Mahalanobis, and generalized distances for novel class estimation）来提高精度。

2 Related Works

主要写下与DC方法的区别
**DC：**隐式地假设了baseclass中的各个类在语义上独立，即没有考虑baseclass和novelclass之间的相似度问题，不能用于任意特征提取器。
**GDC：**没有隐式假设，考虑了相似度，可以应用于任意特征提取器。

3 Algorithm

在这里插入图片描述

3.1 Gaussianization of the Data

方法假设输入特征都遵循了多元正态分布（multivariate normal distribution），所以应该先对初始输入特征处理下让他们更符合这个假设。
在这里插入图片描述

3.2 Proposed Random Variable

这里讲了novel class的分布是如何得来的。
在这里插入图片描述
这里超参m的作用是让距离近相似度高的样本点更加突出，距离远相似度低的样本点被削弱。类似于IDW（反距离插值inverse distance weighted）。

通过定义更高的幂值，可进一步强调最近点。因此，邻近数据将受到更大影响，表面会变得更加详细（更不平滑）。随着幂数的增大，内插值将逐渐接近最近采样点的值。指定较小的幂值将对距离较远的周围点产生更大的影响，从而导致平面更加平滑。
link👇
反距离插值（Inverse Distance Weighted）
基于K近邻的反距离权重插值——IDW

3.3 Shrinking the Covariance

当样本数目小于样本特征数目的时候，协方差矩阵不可逆，为了缓解这个问题、改善估计值、使GDC可以不受这个条件约束而适用于任何情况——采用协方差收缩。
GDC使用了协方差收缩的变体👇
在这里插入图片描述
α1、α2是超参数，σ1是平均对角线方差（average diagonal variance），σ2是平均非对角线方差（average off-diagonal variance）。
相关link👇
【sklearn第二十二讲】协方差估计
 sklearn自学指南(part20)–收缩和协方差估计

3.4 Sampling the novel class

这里讲针对由一个数据点（即一个novel class point）产生的分布如何抽取新的数据点并作为支持集的补充。多个数据点则重复抽取过程即可。
在这里插入图片描述

4 Experiments

4.1 dataset

miniImagenet
CUB
Stanford Dogs
meta-tieredImagenet
Cross Domain dataset,eg.miniImagenet—>CUB

4.2 feature extractor

在这里插入图片描述

4.3 performance

在这里插入图片描述

4.4 ablation study

在这里插入图片描述
可以看到超参α1的引入对性能提升最大，说明协方差收缩作用很大。

5 超参数

在这里插入图片描述
β：公式(2)(3)
m：公式(8)
k：K-NN
α1 α2：公式(9)
n：采样点数目
下图是超参m取值对采样点的影响，m=4，采样点与x-hat最接近。

6 Conclusion

在这里插入图片描述

7 补充link

1.weight decay的作用：防止过拟合，是正则化的一种方式。
pytorch之weight decay的作用和实现
2.协方差矩阵中奇异值出现的原因以及解决方式
https://blog.csdn.net/weixin_42849485/article/details/86682758
3.tranductive learning转导学习
转导学习 transductive learning
4.如何让扭曲歪斜的分布变换成正态分布或类似正态分布？
（1）turkey ladder of powers
Tukey Ladder of Powers / Power Ladder: Definition
（2）Yeo-Johnson变换
Yeo-Johnson变换

脑瓜嗡嗡0608

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
《GDC — Generalized Distribution Calibration for Few-Shot Learning》FSL论文笔记(属于data augmentation)

2.提出了广义抽样方法(generalized sampling method)——GDC(generalized distribution calibration)3.使用到了协方差收缩(covariance shrinkage)，来预防由于过度参数化特征或小规模数据集而引起的奇异协方差(singular variance)4.不同于DC，GDC在训练数据集中样本类差异值较大（相似度较小）的情况下也表现的很好5.在常见few-shot数据集进行了实验，在跨域数据集也进行了实验。
复制链接

扫一扫

专栏目录