TADAM: Task dependent adaptive metric for improved few-shot learning

文章的主要贡献

  • metric scaling 在将距离d输入到softmax层之前,乘以一个系数 α \alpha α,这样使得余弦和欧式距离区分度不那么明显,也使得模型的适应性更强;文中将 α \alpha α分为两种情况讨论:即 α → 0 \alpha\to0 α0 α → ∞ \alpha\to\infty α,从文中公式(3)(4)可以看出,两种情况的第一项作用相同,都是最小化query 到其相应类别的prototype的embedding distance;
    区别在于第二项, α → 0 \alpha\to0 α0相当于起到最大化query到其不属于类别的prototype的距离,而 α → ∞ \alpha\to\infty α最大化query到其离的最近的prototype的距离(可以是同一类也可以不是一类)。
  • Task Conditioning 这个点不太好理解。是说要让feature extractor f φ ( ⋅ ) f_\varphi(\cdot) fφ()对每个task都有所不同,即task-independent:
    “A dynamic task conditioned feature extractor should be better suited for finding correct associations between given sample set class representations and query samples”
    task representation 指的是测试样本集合每个类别prototype的均值,这样做的好处有:(1)降维;(2)代替复杂的RNN/attention等模型;(3)cluster tasks。相似的task在task representation space更容易cluster closer.
    用TEN将task representation encode后,为feature extractor上的每一个卷积层都预测出一个缩放和平移向量(逐元素等级的)。
  • Auxiliary task co-training.首先TEN结构是内嵌在conv中的,即和convolutional filters共同训练,并额外增加了标准的64分类head部。(这块我有点不太懂,如果增加标准分类头部,那如何输出缩放和平移标量,难道是训练的时候在尾部加上64分类器,测试时去掉?)。然后就是这种64分类采样方式的设置。

文中关键的点:

  1. conditioned feature extractor
    “However, learning such a space is in general more challenging than learning a static one.”
  2. the interaction between ……
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值