1 Introduction
作者提出在FSL中存在使用越强的预训练模型可以使得算法性能提高的悖论,其原因是预训练模型的旧知识会产生误导性从而看不见新知识,该悖论揭示了FSL中未知的系统性缺陷。在该文献中,作者首先指出了这一缺陷的原因:预训练可能会在FSL中产生不良影响,然后提出了一种新的FSL范式:介入性小样本学习(IFSL),以对抗这种不良影响,其理论基于预先训练的知识、小样本和类别标签之间的因果关系的假设。
2 Methodology
2.1 Few-Shot Learning
在每个类的N个样本上(S)训练一个K路分类器,并在查询集Q上测试。一般采用以下两种范例训练分类器:
Fine-Tuning:将先验知识作为样本特征表示x,由在数据集D上预训练网络Ω编码,并引用了Ω以及其他可培训的子部分Ω(如有)可吸收到θ中,在支持集上训练分类器,然后以标准的监督方式在查询集上对其进行评估。
Meta-Learning:如果数据集D可以重新组合成训练对,则可以看作为N-shot-K-way的训练目标。可以从参数化为φ的数据中对“学习行为”建模,可以通过上述微调范式对每个(Si,Qi)进行学习。形式上,将
表示为具有学习行为的增强分类器。
2.2 Structural Causal Model
元学习中的(φ,θ)和微调中的θ都依赖于预训练。这种“依赖性”可以用结构因果模型形式化,其中节点表示抽象数据变量,有向边表示(功能)因果关系。
,D为预训练的知识,X为特征表示,即可以从预训练的知识中获取特征表示。
,C为低纬度的X表示。1)
,一组数据点通常嵌入在低维流形中。这一发现可以追溯到降维的漫长历史,深层网络训练过程中出现了解纠缠语义流形。2)
,特征可以使用(或投影到)流形基底线性或非线性表示。
,Y可以表示分类结果。存在
和
两条路径,因为X可以完全由C表示,所以有C的路径是不可避免的。
一个理想的FSL模型应该捕捉到X和Y之间的真正因果关系,从而推广到看不见的样本。传统的相关性无法做到,因为存在路径
和
,需要使用因果干预
来实现FSL目标。
2.3 Causal Intervention via Backdoor Adjustment
上图的因果图也可以用在多样本学习上,相比于少样本学习更加稳健,作者针对该问题做了解释,即为什么在MSL上而在FSL上
?
作者回答该问题引入了一个内生特征采样,即样本ID,图中为 I 表示。在MSL中,存在路径,导致X不在被D所干预,即I和D相互独立。而在FSL中,存在
路径,导致D无法被消除,这源于模型会猜测对应关系。
本文采用后门调整来实现:
2.4 Interventional Few-Shot Learning
功能方面的调整。假设F是X的特征维度的索引集,则按照F可以划分成N个大小相等的不相交子集,即。预先训练知识的语义集可以定义为
,且
。
1),是一个索引集,其对应的绝对值(以X为单位)大于阈值t。
2),其中
,
为特征选择器。
3),假设调整后的特征具有统一的先验知识。
整体功能调整为:
类别方面的调整。假设有m个预训练类,标记为。预训练的每一层知识都可以被定义为预训练类,即
的每一个都可表示为
。
1),其中
是预训练的分类器,与使用索引集的特征调整不同,这里是实向量。
2),这里是向量串联。
3),假设每一类都有一个统一的先验。
整体类别调整为:
综合调整。可以结合特征调整和类别调整,使后门调整中的分层更加细粒度。我们的组合很简单:在类调整之后应用特征调整。因此:
3 Experimental Studies
3.1 Datasets
该实验采用FSL文献中的基准数据集:miniImageNet、tieredImageNet和Caltech-UCSD Birds-200-2011。
3.2 Performance evaluation
实验的评估基于以下指标:1)常规精度(Acc)是FSL中常用的平均分类精度;2)硬化比定义一个硬度来度量其与支持集的语义差异,然后在不同的查询硬度级别上计算精度。3)特征定位精度(CAM-Acc)量化模型在进行预测时是否“注意”实际对象。
3.3 Experimental Results
从表1中,我们观察到IFSL在所有设置中都持续改进微调和元学习,这表明IFSL对方法、数据集和主干不可知。图5(a)显示了微调硬度特定Acc的曲线图。我们注意到,当查询变得更加困难时,ResNet-10(蓝色曲线)将优于WRN-28-10(红色曲线)。
将+IFSL与左侧的基线线性分类器和右侧的基线MAML[20]进行比较,并在右上表中总结CAM Acc结果。从可视化的角度来看,使用IFSL可以让模型更加关注对象。但是,请注意,所有模型在颜色为红色的类别中均失败。失败背后的一个可能原因是对象模型的规模非常小,因此必须借助上下文进行预测。
4 Conclusion
作者提出了一个新的非正式框架:介入性少样本学习(IFSL),以解决最近FSL方法中被忽视的一个缺陷:预训练是影响性能的一个混杂因素。具体来说,作者提出了FSL过程中因果关系的结构因果模型,然后开发了三个基于后门调整的实际实现。为了更好地说明这一缺陷,作者对查询硬度的分类精度进行了全面的诊断,并表明IFSL改进了所有硬度的所有基线。值得强调的是,IFSL的贡献不仅在于提高FSL的性能,而且还提供了IFSL工作良好的因果解释:它是多镜头学习的因果近似。我们相信IFSL可以为探索FSL的新边界提供帮助,尽管众所周知FSL由于数据不足而不适定。为了升级IFSL,我们将寻求其他观测干预算法以获得更好的性能,并为更一般的少数镜头设置(如域转移)设计反事实推理。