Task Agnostic Meta-Learning for Few-Shot Learning 阅读笔记

寂静山谷的风

于 2024-08-13 23:10:06 发布

阅读量242

点赞数 2

文章标签：笔记

本文链接：https://blog.csdn.net/weixin_44076628/article/details/141176247

版权

摘要：

元学习器的初始模型可能过于偏向现有任务，无法适应新任务，特别是当只有很少的示例可以更新模型时。因此我们提出了一种新的任务不知论元学习(TAML)算法。具体来说，我们提出了一种基于熵的方法，通过防止在分类任务中过度执行，元学习对输出标签具有最大不确定性的无偏初始模型。或者，对于更普遍的情况，通过直接最小化分类任务之外的初始损失的不等式，在任何可以定义合适损失的地方，提出了一种更通用的不等式最小化TAML。在基准数据集上的实验表明，所提出的方法在少镜头分类和强化学习任务中都优于相比较的元学习算法。

介绍：

元学习模型通常包含两部分——初始模型和更新策略(例如，参数化模型)，用于训练初始模型以完成很少示例的新任务。

元学习的目标是自动元学习初始模型和更新策略的最佳参数，这些参数可在各种任务中推广。

现有元学习方法的问题是，初始模型的训练可能偏向于某些任务，特别是那些在元训练阶段采样的任务。

我们希望对一个无偏见的初始模型进行元训练，防止它在某些任务上表现过度，或直接最小化不同任务之间的表现不平等，以期使它更适用于未见的任务。

我们提出了两种新的TAML算法

基于熵的TAML（仅限于模型的离散输出，数和分类任务）和基于不等式最小化度量的TAML。使用基于熵的方法的思想是最大化初始模型预测的标签熵，以防止它在某些任务上表现过度。

基于不等式最小化度量的TAML：其思想是对初始模型进行元训练，使其直接最小化初始模型在各种任务中的损失不相等。这将迫使元学习器学习一个无偏见的初始模型，而不会在某些特定任务上表现过度。同时，对于所涉及的任务，可以采用任何形式的损失，而不必依赖于离散输出。这使得该范例在分类任务之外的许多场景中更加普遍。

方法：

我们的目标是训练一个模型，它可以是任务不可知的，以防止初始模型或学习者在特定任务上表现过度。在本节中，我们将首先描述我们基于熵和基于不等式最小化度量的方法来解决问题，然后我们将讨论我们在论文中使用的一些不等式度量。

任务不可知元学习：

模型权重在训练的时候可以使用随机梯度下降，使得交叉熵LOSS最小。

为了防止初始模型fθ在一项任务上学的太好，我们更喜欢它对具有相等概率的预测标签进行随机猜测，这样它就不会偏向于任务。（修改softmax输出值？概率相等？）

既可以使参数更新之前熵值最大化，也可以让参数更新之后熵值最小化。

HTi(fθi)的最小化意味着在将参数θ更新为θi后，模型可以对标签更加确定。

不幸的是，基于熵的TAML受到一个关键的限制——它只适用于分类任务中的离散标签来计算熵。

基于不平等最小化度量的TAML

我们希望在训练一个任务不可知元学习模型。元学习器通过最小化其在不同任务的不平等来实现这一点。我们提出了一种基于用于衡量“经济不平等”的大量统计数据来衡量“任务偏见”的方法。每个任务Ti的初始模型损失被视为该任务的收入。然后对于TAML模型，它在多个任务上的损失不平等最小化，使元学习器任务不可知。前一个任务需要计算熵，因此只能在有离散标签的任务中使用。本任务中，不平等取决于损失，适用性更广。

寂静山谷的风

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Task Agnostic Meta-Learning for Few-Shot Learning 阅读笔记

具体来说，我们提出了一种基于熵的方法，通过防止在分类任务中过度执行，元学习对输出标签具有最大不确定性的无偏初始模型。或者，对于更普遍的情况，通过直接最小化分类任务之外的初始损失的不等式，在任何可以定义合适损失的地方，提出了一种更通用的不等式最小化TAML。前一个任务需要计算熵，因此只能在有离散标签的任务中使用。我们的目标是训练一个模型，它可以是任务不可知的，以防止初始模型或学习者在特定任务上表现过度。，防止它在某些任务上表现过度，或直接最小化不同任务之间的表现不平等，以期使它更适用于未见的任务。
复制链接

扫一扫