Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks 读后感)
论文概述
本篇论文《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》是一篇关于元学习器的论文,在本论文中,作者提出了一种跟模型无关的元学习算法,它可以适配于任何基于梯度下降进行参数拟合的学习器,可用于分类,回归,强化学习等;在论文中,作者在两个少量图片分类的任务中,使用该算法取得了最好的表现。
什么是元学习
简单的说,元学习是让机器能够学习到如何去学习的技术,近几年被越来越多的学者们所推崇;工程师们试图利用多场景的训练任务得到一个较好的元学习器,使得再新的任务中,机器只需要很少的样本就可以取得非常优秀的性能。听上去跟迁移学习是有一点类似。本文基于深度神经网络对元学习技术做了探索也提出了非常优秀的算法给读者们作参考。不同于以往的元学习技术,本文作者提出的算法通过初始化后参数,能够在新任务经过很少次数的梯度下降在小样本下得到适合特定场景的模型。
Algorithm 1 Model-Agnostic Meta-Learning 梯度下降更新过程
假设:
p
(
τ
)
p(\tau)
p(τ) 是一个训练任务集的分布
假设:
α
,
β
\alpha,\beta
α,β 是元学习器和基学习器的的步长
对所有
τ
i
\tau_i
τi ~
p
(
τ
)
p(\tau)
p(τ):
计算其损失:
Δ
θ
ζ
\Delta_\theta \zeta
Δθζ
τ
i
(
f
θ
)
\tau_i(f_\theta)
τi(fθ)
利用梯度下降更新
θ
i
′
=
θ
−
α
\theta'_i=\theta -\alpha
θi′=θ−α
Δ
θ
ζ
\Delta_\theta\zeta
Δθζ
τ
i
(
f
θ
)
\tau_i(f_\theta)
τi(fθ)
对所有的训练任务完成上述训练后:
更新
θ
=
θ
−
β
Δ
θ
∑
τ
i
∈
p
(
τ
)
ζ
f
(
θ
i
′
)
\theta=\theta-\beta\Delta_\theta\sum_{\tau_i \in p(\tau)}\zeta f(\theta'_i)
θ=θ−βΔθ∑τi∈p(τ)ζf(θi′)
对于回归任务和分类任务,区别主要在采用的损失函数不同,本文介绍了回归的MSE与分类的交叉熵损失。
相关实验
问题:1.MAML在新学习任务上速度是否足够快?
2、MAML在不同类型的学习任务上是否都能够胜任?
3、进一步增加梯度下降迭代次数能否持续增强模型性能?
作者基于Omniglot与MiniImagenet两个数据集,利用本论文提出的算法得出的模型较前人的算法有了一定提高,结果显示MAML算法具有速度更快,在极端小样本下表现更优异,且可以持续优化,收敛速度更快的优点。
问题
1、从本文所举例的实验中,我们能看到在基于神经网络的学习器里边,该算法比之该领域的其它算法有一定的优越性,那么切合到信用风险领域,如果我们用传统的机器学习模型,这样的结果是不是可复制的呢?
2、较之于迁移学习,元学习算法与其最本质的不同是什么呢?
3、在我们目前工作的领域是否有必要去选择这样的算法进行探索,因为我们面对的大多是结构化的数据集并且样本量并不大,即使是全量样本进行梯度下降去拟合一个逻辑回归耗时也不会太久;另一方面,我们很缺样本,能不能有足够多的不同场景训练任务去训练处一个比较合适的元学习者。
4、如果我们训练出了一个较为优秀的元学习器,今后在面对一些业务开展时间不长的客户时,那我们是不是可以基于很少的样本(几十个坏几千个好)去训练出
一个比专家经验或是基于当前总体样本训练出的逻辑回归模型泛化性,效果都更优越的模型,投入到生产环境中进行使用。