【论文笔记】Interventional Few-Shot Learning

概述

目前流行的meta-learning、fine-tuning等小样本学习方法都利用外部知识进行预训练,以使模型在小样本上有好的效果。而预训练知识很可能会成为影响样本特征与标签之间的关系的混杂因素,使模型得到错误的结果。
本文从因果的角度解释预训练知识引入混杂的原因,并提出干预式小样本学习,在现有方法的基础上通过后门调整进行去混杂。

研究目标

解决小样本学习中预训练带来的不足。

问题陈述

few-shot learning

典型的few-shot learning:在 N N N-shot support set S S S上训练 K K K-way 分类器,其中 N N N代表每个类中的训练样本数,这个数字很小(如 N N N=1或5);然后再 query set Q Q Q 上测试分类器。用两种方法来训练分类器 P ( y ∣ x ; θ ) P(y | x;θ) P(yx;θ),预测样本 x x x的类 y ∈ 1 , . . . , K y∈{1,...,K} y1...K

Fine-Tuning. 样本特征表示 x x x,由先验知识数据集 D D D上的预训练网络 Ω Ω 编码。将 x x x表示为 Ω Ω 的冻结子部分的输出,而其余的可训练子部分(如果有的话)可以被吸收到 θ θ θ中。我们在支持集 S S S上训练分类器 P ( y ∣ x ; θ ) P(y | x;θ) P(yxθ),然后以标准监督的方式在查询集 Q Q Q上对其求值。

Meta-Learning. 从参数化为 φ φ φ的先验知识 D D D中对“学习行为”进行建模,通过上述 Fine-tuning 可以对每个 ( S i , Q i ) (S_i, Q_i) (Si,Qi)进行学习。形式上,我们将 P φ ( y ∣ x ; θ ) Pφ(y | x;θ) Pφyxθ表示为具有学习行为的增强分类器。例如, φ φ φ可以是分类器权重生成器,kNN中的距离核函数,甚至 θ θ θ的初始化。考虑 L φ ( S i , Q i ; θ ) Lφ(S_i,Q_i;θ) LφSiQiθ作为 P φ ( y ∣ x ; θ ) Pφ(y | x;θ) Pφyxθ S i S_i Si上训练并在 Q i Q_i Qi上测试的损耗函数,我们可以得到 φ ← a r g m i n ( φ , θ ) E i [ L φ ( S i , Q i ; θ ) ] φ←argmin_{(φ,θ)}E_i[Lφ(S_i,Q_i;θ)] φargmin(φθ)Ei[LφSiQiθ],然后在 S S S上确定优化的 φ φ

  • 4
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值