概述
目前流行的meta-learning、fine-tuning等小样本学习方法都利用外部知识进行预训练,以使模型在小样本上有好的效果。而预训练知识很可能会成为影响样本特征与标签之间的关系的混杂因素,使模型得到错误的结果。
本文从因果的角度解释预训练知识引入混杂的原因,并提出干预式小样本学习,在现有方法的基础上通过后门调整进行去混杂。
研究目标
解决小样本学习中预训练带来的不足。
问题陈述
few-shot learning
典型的few-shot learning:在 N N N-shot support set S S S上训练 K K K-way 分类器,其中 N N N代表每个类中的训练样本数,这个数字很小(如 N N N=1或5);然后再 query set Q Q Q 上测试分类器。用两种方法来训练分类器 P ( y ∣ x ; θ ) P(y | x;θ) P(y∣x;θ),预测样本 x x x的类 y ∈ 1 , . . . , K y∈{1,...,K} y∈1,...,K。
Fine-Tuning. 样本特征表示 x x x,由先验知识数据集 D D D上的预训练网络 Ω Ω Ω编码。将 x x x表示为 Ω Ω Ω的冻结子部分的输出,而其余的可训练子部分(如果有的话)可以被吸收到 θ θ θ中。我们在支持集 S S S上训练分类器 P ( y ∣ x ; θ ) P(y | x;θ) P(y∣x;θ),然后以标准监督的方式在查询集 Q Q Q上对其求值。
Meta-Learning. 从参数化为 φ φ φ的先验知识 D D D中对“学习行为”进行建模,通过上述 Fine-tuning 可以对每个 ( S i , Q i ) (S_i, Q_i) (Si,Qi)进行学习。形式上,我们将 P φ ( y ∣ x ; θ ) Pφ(y | x;θ) Pφ(y∣x;θ)表示为具有学习行为的增强分类器。例如, φ φ φ可以是分类器权重生成器,kNN中的距离核函数,甚至 θ θ θ的初始化。考虑 L φ ( S i , Q i ; θ ) Lφ(S_i,Q_i;θ) Lφ(Si,Qi;θ)作为 P φ ( y ∣ x ; θ ) Pφ(y | x;θ) Pφ(y∣x;θ)在 S i S_i Si上训练并在 Q i Q_i Qi上测试的损耗函数,我们可以得到 φ ← a r g m i n ( φ , θ ) E i [ L φ ( S i , Q i ; θ ) ] φ←argmin_{(φ,θ)}E_i[Lφ(S_i,Q_i;θ)] φ←argmin(φ,θ)Ei[Lφ(Si,Qi;θ)],然后在 S S S上确定优化的 φ φ