文章的主要贡献
- metric scaling 在将距离d输入到softmax层之前,乘以一个系数
α
\alpha
α,这样使得余弦和欧式距离区分度不那么明显,也使得模型的适应性更强;文中将
α
\alpha
α分为两种情况讨论:即
α
→
0
\alpha\to0
α→0 和
α
→
∞
\alpha\to\infty
α→∞,从文中公式(3)(4)可以看出,两种情况的第一项作用相同,都是最小化query 到其相应类别的prototype的embedding distance;
区别在于第二项, α → 0 \alpha\to0 α→0相当于起到最大化query到其不属于类别的prototype的距离,而 α → ∞ \alpha\to\infty α→∞最大化query到其离的最近的prototype的距离(可以是同一类也可以不是一类)。 - Task Conditioning 这个点不太好理解。是说要让feature extractor
f
φ
(
⋅
)
f_\varphi(\cdot)
fφ(⋅)对每个task都有所不同,即task-independent:
“A dynamic task conditioned feature extractor should be better suited for finding correct associations between given sample set class representations and query samples”
task representation 指的是测试样本集合每个类别prototype的均值,这样做的好处有:(1)降维;(2)代替复杂的RNN/attention等模型;(3)cluster tasks。相似的task在task representation space更容易cluster closer.
用TEN将task representation encode后,为feature extractor上的每一个卷积层都预测出一个缩放和平移向量(逐元素等级的)。 - Auxiliary task co-training.首先TEN结构是内嵌在conv中的,即和convolutional filters共同训练,并额外增加了标准的64分类head部。(这块我有点不太懂,如果增加标准分类头部,那如何输出缩放和平移标量,难道是训练的时候在尾部加上64分类器,测试时去掉?)。然后就是这种64分类采样方式的设置。
文中关键的点:
- conditioned feature extractor
“However, learning such a space is in general more challenging than learning a static one.” - the interaction between ……