Rapid learning or feature reuse ? Toward understanding the effectiveness of MAML

论文信息

题目:

  • Rapid learning or feature reuse ? Toward understanding the effectiveness of MAML

作者及单位:

  • Aniruddh Raghu,MIT
  • Maithra Raghu,Cornell University & Google Brain
  • Samy Bengio,Google Brain
  • Oriol Vinyals,DeepMind
    期刊、会议:
  • ICLR

时间:

  • 2020

论文地址:

代码:

基础

1 摘要

  • 元学习在小样本学习中得到了广泛应用,其中特别成功的是MAML,一种有着两个优化循环、内部循环可以有效地学习新的任务然后通过外部循环找到元初始化. 尽管MAML很流行,一个基本的开放问题仍然存在——MAML的有效性是由于为快速学习准备的元初始化(表现形式的大而有效的变化),还是由于特性重用,而元初始化已经包含了高质量的特性?. 通过消融研究(ablation studies)和潜在表征分析,我们发现特征重用是主导因素。这就产生了ANIL(几乎没有内部循环)算法,这是对MAML的一种简化,除了底层神经网络的(特定于任务的)头之外,我们删除了所有的内部循环。NIL能达到在few-shot image classification and RL上MAML的性能,并在计算改进了MAML.

2 论文动机

  • MAML以深度神经网络为模型,有很高影响,后续研究也很有意义,such as first order variants (Nichol
    and Schulman, 2018), probabilistic extensions (Finn et al., 2018), augmentation with generative
    modelling (Rusu et al., 2018), and many others (Hsu et al., 2018; Finn and Levine, 2017; Grant et al.,
    2018; Triantafillou et al., 2019)
  • 尽管MAML很流行,在大量的后续和扩展中,基本算法仍然存在一个基本的开放问题. 外部循环学习的元初始化是否会导致对未见测试任务的快速学习(表示中有效但重要的变化),或者成功主要是因为特性重用(元初始化已经提供了高质量的表示)?

3 Main contributions:

  • 我们对MAML进行了层冻结实验(layer freezing experiments)和潜在的代表性分析,发现特征重用是有效学习的主要原因.
  • 基于这些结果,我们提出了ANIL(几乎没有内环)算法,这是对MAML的一个显著简化,在训练和推理过程中除去神经网络头部(最后一层)之外的所有内环更新。ANIL执行相同的MAML标准基准少镜头分类和RL任务,并提供计算优于MAML.
  • 我们研究了网络头部的作用,发现一旦训练完成,头部可以被移除,表示可以不经过调整而使用来执行看不见的任务,我们称之为无内环(NIL)算法.
  • 我们研究了不同的训练模式,如多类分类、多任务学习等,发现MAML/ANIL在训练时的任务特殊性有利于更好的特征的学习. 我们还发现,多任务训练,一个流行的没有任务特异性的基准,表现比随机特征差.
  • 我们在其他元学习方法的背景下讨论快速学习和特性重用.

4 Related Work

4.1 MAML,Rapid learning, and Feature Reuse

  • 在快速学习过程中,表征和参数会发生较大的变化在适应每个task中,从而使元初始化获得有利的权重条件.
  • 在feature reuse中元学习包含有用的features, 能够用于新task的feature,因此在少样本的task上能更新
    在这里插入图片描述

4.2 RAPID LEARNING OR FEATURE REUSE?

主要探讨一个问题

  • Is MAML’s efficacy predominantly due to rapid learning or feature reuse?
    研究这个问题,网络的head(最后一层)和较早的层(网络的主体)之间有一个重要的区别. 输出神经元与类别存在不同的对齐方式. 例如对于Task1 输出五个神经元分别对应五个类别(狗、猫、青蛙、船、车、南瓜). 对于Task2 对应不同,这意味着,为了学习新的对齐方式,每个任务的head(最后一层)都必须改变,而对于快速学习vs特征重用的问题,我们主要关注的是网络主体的行为.

为了研究网络的body,使用两种实验方式:

  • 在不考虑测试时间内环自适应的情况下,对经过MAML训练的参数进行冻结时的few-shot学习性能进行评价.
  • 我们使用具象相似工具来直接分析有多少网络特征和表示通过内部循环改变.
4.2.1 FREEZING LAYER REPRESENTATIONS
  • To study the impact of the inner loop adaptation, freeze a contiguous subset of layers of the network(阻止内循更新)during the inner loop at test time.特别的,冻结层在test time task不会更新, 而且会reuse这些特征,这些特征是外循环收敛的meta-initization学习到的特征.(简单来说就是,冻结的这些层表示的特征不会改变,在外循环收敛过程,这些特征会被重复利用)
    在这里插入图片描述
    冻结连续的层(防止内部循环适应)不会影响准确性,supporting feature reuse. 为了测试内环适应过程中发生的特征重用数量,我们在测试时冻结(防止内环适应)一个连续的层块时测试模型的准确性. 我们发现即使冻结网络的所有四层卷积层(除了网络头之外的所有层)也不会影响准确性. 这有力地支持了特性重用假设:层不必在adaptation time迅速改变;它们已经包含了好的特性. 我们观察到,即使冻结了网络主体中的所有层,性能也几乎没有变化。这表明元初始化已经学习了足够好的特性,可以原样重用,不需要为每个测试任务执行任何快速学习

4.3 REPRESENTATIONAL SIMILARITY EXPERIMENTS

We next study how much the latent representations (the latent functions) learned by the neural network change during the inner loop adaptation phase. 我们通过应用典型相关来测量它分析(CCA)的潜在表示的网络. CCA提供了一种方法来比较两个(潜在的)层的表示L1;神经网络的L2,输出之间的相似度评分0(完全不相似)和1(相同).
In our analysis, we take L1 to be a layer before the inner loop adaptation steps, and L2 after the inner loop adaptation steps. We compute CCA similarity between L1, L2, averaging the similarity score across different random seeds of the model and different test time tasks.
在这里插入图片描述
结果如图2左窗格所示。网络主体(convolutional layers)的表示高度相似,CCA相似度评分为> 0:9,说明内环的功能变化很小,甚至没有变化。相比之下,在内部循环中确实发生显著变化的网络head,其CCA相似性小于0:5. 为了进一步验证这一点,我们还计算了CKA(中心核对齐)(Kornblith et al., 2019)(图2右),这是神经网络表征的另一个相似性度量,它演示了相同的模式. 这些代表性分析结果有力地支持了特性重用假设.

Feature reuse happens early om learning

观察到内环对一个完全训练过的模型的学习表征没有显著的影响后,我们扩展我们的分析来看看内环是否会在训练早期影响表征和特征. We take MAML models at 10000, 20000, and 30000 iterations into training, perform freezing experiments
在这里插入图片描述
结果在图3中显示了相同的模式从早期训练,与CCA相似性激活前后内循环更新MiniImageNet-5way-5shot很高的身体(就像图2),和类似于表1,测试精度剩下的差不多的时候冻结相邻层的子集,即使冻结所有层网络的身体。这表明,即使在训练的早期,显著的特性重用也在发生,内部循环对学习到的表征和特性的影响最小

本文方法

The ANIL (ALMOST NO INNER LOOP) algorithm

Inner loop adaptation does not significantly change the representations of these layers, even from early on in training. This suggests a natural simplification of the MAML algorithm: the ANIL (Almost No Inner Loop) algorithm.

In ANIL, during training and testing, we remove the inner loop updates for the network body, and apply inner loop adaptation only to the head.

Relevant literature

数值实验

Neural Network Approximation Theorem for PDEs

总结:

  • 11
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pinn山里娃

原创不易请多多支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值