[论文阅读-2017NeurIPS]：Prototypical Networks for Few-shot Learning

最新推荐文章于 2024-07-25 17:13:21 发布

Calx-C

最新推荐文章于 2024-07-25 17:13:21 发布

阅读量887

点赞数 14

分类专栏：论文阅读文章标签：论文阅读深度学习

本文链接：https://blog.csdn.net/weixin_45842152/article/details/136838821

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

本文介绍了PrototypicalNetworks，一种用于小样本学习的模型，通过学习非线性映射并利用类别原型进行分类。它展示了在数据匮乏情况下良好的性能，且设计简洁，优于复杂的元学习方法。文章还探讨了原型网络在零样本学习任务中的应用。

摘要由CSDN通过智能技术生成

Prototypical Networks for Few-shot Learning

Introduction

在这里插入图片描述

小样本学习定义： 小样本学习任务要求分类器能够适应在训练集中未出现过的新类别，并且对于每个新类别，只有极少数的样本可供学习。
问题的重要性： 尽管这是一个非常困难的问题，但人类展现出了在极端条件下（如单样本学习）进行准确分类的能力。因此，开发能够在有限样本下有效学习的机器学习模型具有重要意义。
现有方法的局限性（2017年之前）： 直接在新数据上重新训练模型会导致严重的过拟合问题。虽然已有一些方法在小样本学习上取得了进展，但仍需寻找更有效的解决方案。
原型网络的提出： 为了解决小样本学习中的过拟合问题，作者提出了原型网络（Prototypical Networks），这是一种基于原型的简单方法，通过学习输入空间到嵌入空间的非线性映射来进行分类。
原型网络的优势： 与最近的一些复杂方法相比，原型网络展现了更简单的归纳偏置（inductive bias），在有限数据条件下表现出色。此外，原型网络的设计决策简单，但在性能上却能显著超越涉及复杂架构选择和元学习的方法。
零样本学习的扩展： 作者还扩展了原型网络以处理零样本学习任务，其中类别是通过元数据而非标记样本来定义的。

原型网络

小样本问题建模

support set：
$S=\{(x_1,y_1),.........,(x_N,y_N)\}$

$x_i \in \mathbb{R}^D ， y_i \in \{1,2,3,.......K\}$

$S_k=\{(x_1,y_1),.......(x_i,y_i)...... | y_i =K\}$

其中xi是D维度的特征向量，yi是xi对应的标签，yi的种类有1~K不同类型,Sk为标签均为K的子集

原型网络建模

模型学习出的函数 $f_\phi ：\mathbb{R}^D \to \mathbb{R}^M$ ,原型网络学习一个编码函数，将输入的D维的xi，编码为M维度的 $f_\phi(x_i)$ 。然后按类别不同，对每个类别计算原型 $c_k$ 。

$c_k=\frac{1}{S_K} \sum_{(x_i,y_i) \in S_k}f_{\phi}(x_i)$

每类样本的编码求均值得到原型。

针对某个输入样本，如何确定他所属类别：
在这里插入图片描述
对此样本和所有原型求距离，然后算softmax。

损失函数 $J(\phi)=-\log_{p_{\phi}}(y=k|x)$ ,最小化真实类别负对数。
训练时的“episode”是通过从训练集中随机选择一部分类别形成的，然后在每个类别中选择一部分样本作为支持集（support set），剩余的部分作为查询点（query points）。

原型网络的整体流程（伪代码）：

符号表示：
N大训练集样本总数，K大训练集类别总数。每个“episode”是 $N_c$ ways $N_s$ shots with $N_Q$ queries (相当于每个eposide每个类别的的测试集样本数有 $N_Q$ 个)。 $R A N D OMS A MP L E (S, N)$ 从S集合采样N个。

在这里插入图片描述

疑惑：这里求原型为什么不除Ns呢？？？？？？？

本文的距离度量采用平方欧几里得距离
之后作者论述了选择距离度量函数的依据，和实验结果，年代久远，不深究了。

Calx-C

关注

14
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
[论文阅读-2017NeurIPS]：Prototypical Networks for Few-shot Learning

训练时的“episode”是通过从训练集中随机选择一部分类别形成的，然后在每个类别中选择一部分样本作为支持集（support set），剩余的部分作为查询点（query points）。其中xi是D维度的特征向量，yi是xi对应的标签，yi的种类有1~K不同类型,Sk为标签均为K的子集。之后作者论述了选择距离度量函数的依据，和实验结果，年代久远，不深究了。N大训练集样本总数，K大训练集类别总数。,原型网络学习一个编码函数，将输入的D维的xi，编码为M维度的。然后按类别不同，对每个类别计算原型。
复制链接

扫一扫