Interventional Few-Shot Learning

最新推荐文章于 2024-06-17 11:48:39 发布

曾英俊

最新推荐文章于 2024-06-17 11:48:39 发布

阅读量2.7k

点赞数

分类专栏：学习总结文献阅读机器学习文章标签：文献阅读因果关系 Re-ID 无监督学习图像识别

本文链接：https://blog.csdn.net/yanhu6955/article/details/121617542

版权

机器学习同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

学习总结

7 篇文章 0 订阅

订阅专栏

文献阅读

6 篇文章 0 订阅

订阅专栏

1 Introduction

作者提出在FSL中存在使用越强的预训练模型可以使得算法性能提高的悖论，其原因是预训练模型的旧知识会产生误导性从而看不见新知识，该悖论揭示了FSL中未知的系统性缺陷。在该文献中，作者首先指出了这一缺陷的原因：预训练可能会在FSL中产生不良影响，然后提出了一种新的FSL范式：介入性小样本学习(IFSL)，以对抗这种不良影响，其理论基于预先训练的知识、小样本和类别标签之间的因果关系的假设。

2 Methodology

2.1 Few-Shot Learning

在每个类的N个样本上(S)训练一个K路分类器，并在查询集Q上测试。一般采用以下两种范例训练分类器 $P(y\mid x;\theta )$ ：

Fine-Tuning：将先验知识作为样本特征表示x，由在数据集D上预训练网络Ω编码，并引用了Ω以及其他可培训的子部分Ω（如有）可吸收到θ中，在支持集上训练分类器 $P(y|x;\theta )$ ，然后以标准的监督方式在查询集上对其进行评估。

Meta-Learning：如果数据集D可以重新组合成训练对 $\begin{Bmatrix} (S_{i},Q_{i}) \end{Bmatrix}$ ，则可以看作为N-shot-K-way的训练目标。可以从参数化为φ的数据中对“学习行为”建模，可以通过上述微调范式对每个（Si，Qi）进行学习。形式上，将 $P_{\varphi }(y\mid x;\theta )$ 表示为具有学习行为的增强分类器。

2.2 Structural Causal Model

元学习中的（φ，θ）和微调中的θ都依赖于预训练。这种“依赖性”可以用结构因果模型形式化，其中节点表示抽象数据变量，有向边表示（功能）因果关系。

$D\rightarrow X$ ，D为预训练的知识，X为特征表示，即可以从预训练的知识中获取特征表示。

$D\rightarrow C\leftarrow X$ ，C为低纬度的X表示。1） $D\rightarrow C$ ，一组数据点通常嵌入在低维流形中。这一发现可以追溯到降维的漫长历史，深层网络训练过程中出现了解纠缠语义流形。2） $X\rightarrow C$ ，特征可以使用（或投影到）流形基底线性或非线性表示。

$X\rightarrow Y\leftarrow C$ ，Y可以表示分类结果。存在 $X\rightarrow Y$ 和 $X\rightarrow C\rightarrow Y$ 两条路径，因为X可以完全由C表示，所以有C的路径是不可避免的。

一个理想的FSL模型应该捕捉到X和Y之间的真正因果关系，从而推广到看不见的样本。传统的相关性 $P(Y\mid X)$ 无法做到，因为存在路径 $D\rightarrow X$ 和 $D\rightarrow C\rightarrow Y$ ，需要使用因果干预 $P(Y\mid do(X))$ 来实现FSL目标。

2.3 Causal Intervention via Backdoor Adjustment

上图的因果图也可以用在多样本学习上，相比于少样本学习更加稳健，作者针对该问题做了解释，即为什么在MSL上 $P(Y\mid do(X))\approx P(Y\mid X)$ 而在FSL上 $P(Y\mid do(X))\approx P(Y\mid X)$ ?

作者回答该问题引入了一个内生特征采样，即样本ID，图中为 I 表示。在MSL中，存在 $I\rightarrow X\leftarrow D$ 路径，导致X不在被D所干预，即I和D相互独立。而在FSL中，存在 $I\leftarrow X$ 路径，导致D无法被消除，这源于模型会猜测对应关系。

本文采用后门调整来实现 $P(Y\mid do(X))$ ：

$P(Y\mid do(X=x))=\sum_{d}^{}P(Y\mid X=x,D=d,C=g(x,d))P(D=d)$

2.4 Interventional Few-Shot Learning

功能方面的调整。假设F是X的特征维度的索引集，则按照F可以划分成N个大小相等的不相交子集，即 $F_{i}=\begin{Bmatrix} 64(i-1)+1,\cdots ,64i \end{Bmatrix}$ 。预先训练知识的语义集可以定义为 $D:= \begin{Bmatrix} d_{1},\cdots ,d_{n} \end{Bmatrix}$ ，且 d_i=F_i 。

1） $g(x,d_i):= \begin{Bmatrix} k\mid k\in F_i\cap I_t \end{Bmatrix}$ ，是一个索引集，其对应的绝对值（以X为单位）大于阈值t。

2） $P(Y\mid X,D,C)=P(Y\mid [x]_c)$ ，其中 c=g(x,d_i) ， [x]_c 为特征选择器。

3） P(d_i)=1/n ，假设调整后的特征具有统一的先验知识。

整体功能调整为：

$P(Y\mid do(X=x))=\frac{1}{n}\sum_{i=1}^{n}P(Y\mid [x]_c)$

类别方面的调整。假设有m个预训练类，标记为 $A=\begin{Bmatrix} a_1,\cdots ,a_m \end{Bmatrix}$ 。预训练的每一层知识都可以被定义为预训练类，即 $D:= \begin{Bmatrix} d_1,\cdots d_m \end{Bmatrix}$ 的每一个都可表示为 d_i=a_i 。

1） $g(x,d_i):= P(a_i\mid x)\bar{x_i}$ ，其中 $P(a_i\mid x)$ 是预训练的分类器，与使用索引集的特征调整不同，这里是实向量。

2） $P(Y\mid X,D,C)=P(Y\mid x\oplus g(x,d_i))$ ，这里是向量串联。

3） P(d_i)=1/m ，假设每一类都有一个统一的先验。

整体类别调整为：

$P(Y\mid do(X=x))=\frac{1}{m}\sum_{i=1}^{m}P(Y\mid x\oplus P(a_i\mid x)\bar{x_i})\approx P(Y\mid x\oplus \frac{1}{m}\sum_{i=1}^{m}P(a_i|x)\bar{x_i})$

综合调整。可以结合特征调整和类别调整，使后门调整中的分层更加细粒度。我们的组合很简单：在类调整之后应用特征调整。因此：

$P(Y\mid do(X=x))\approx \frac{1}{n}\sum_{i=1}^{n}p(Y\mid [x]_c\oplus \frac{1}{m}\sum_{j=1}^{m}[P(a_j\mid x)\hat{x_j}]_c)$

3 Experimental Studies

3.1 Datasets

该实验采用FSL文献中的基准数据集：miniImageNet、tieredImageNet和Caltech-UCSD Birds-200-2011。

3.2 Performance evaluation

实验的评估基于以下指标：1）常规精度（Acc）是FSL中常用的平均分类精度；2）硬化比定义一个硬度来度量其与支持集的语义差异，然后在不同的查询硬度级别上计算精度。3）特征定位精度（CAM-Acc）量化模型在进行预测时是否“注意”实际对象。

3.3 Experimental Results

从表1中，我们观察到IFSL在所有设置中都持续改进微调和元学习，这表明IFSL对方法、数据集和主干不可知。图5（a）显示了微调硬度特定Acc的曲线图。我们注意到，当查询变得更加困难时，ResNet-10（蓝色曲线）将优于WRN-28-10（红色曲线）。

将+IFSL与左侧的基线线性分类器和右侧的基线MAML[20]进行比较，并在右上表中总结CAM Acc结果。从可视化的角度来看，使用IFSL可以让模型更加关注对象。但是，请注意，所有模型在颜色为红色的类别中均失败。失败背后的一个可能原因是对象模型的规模非常小，因此必须借助上下文进行预测。

4 Conclusion

作者提出了一个新的非正式框架：介入性少样本学习（IFSL），以解决最近FSL方法中被忽视的一个缺陷：预训练是影响性能的一个混杂因素。具体来说，作者提出了FSL过程中因果关系的结构因果模型，然后开发了三个基于后门调整的实际实现。为了更好地说明这一缺陷，作者对查询硬度的分类精度进行了全面的诊断，并表明IFSL改进了所有硬度的所有基线。值得强调的是，IFSL的贡献不仅在于提高FSL的性能，而且还提供了IFSL工作良好的因果解释：它是多镜头学习的因果近似。我们相信IFSL可以为探索FSL的新边界提供帮助，尽管众所周知FSL由于数据不足而不适定。为了升级IFSL，我们将寻求其他观测干预算法以获得更好的性能，并为更一般的少数镜头设置（如域转移）设计反事实推理。

曾英俊

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Interventional Few-Shot Learning

1 Introduction 作者提出在FSL中存在使用越强的预训练模型可以使得算法性能提高的悖论，其原因是预训练模型的旧知识会产生误导性从而看不见新知识，该悖论揭示了FSL中未知的系统性缺陷。在该文献中，作者首先指出了这一缺陷的原因：预训练可能会在FSL中产生不良影响，然后提出了一种新的FSL范式：介入性小样本学习(IFSL)，以对抗这种不良影响，其理论基于预先训练的知识、小样本和类别标签之间的因果关系的假设。2 Methodology2.1 Few-Shot Learni...
复制链接

扫一扫

专栏目录