cs231以及迁移学习

最新推荐文章于 2022-06-12 21:45:47 发布

yuki___

最新推荐文章于 2022-06-12 21:45:47 发布

阅读量272

点赞数

分类专栏： cs231n 文章标签：迁移学习人工智能神经网络

cs231n 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Normalization的原因

以这个2元分类为例，不normalization的话，loss非常敏感，分类器稍微改变一下，对loss的影响很大。Normalization后问题得到解决。

在这里插入图片描述
在CNN中我们希望每层都normalization，可以用batch normalization

learning rate是第一个需要调整的超参数，但当他调好之后再调其他参数可能对learning rate的调整产生影响

Problems with SGD

容易出现震荡
容易停留在局部最小值

SGD+Momentum

velocity初始值是0

AdaGrad

在这里插入图片描述
逐参数调节学习率，让梯度大的项学习率慢慢变小，梯度小的则相反。这种方法在CONVEX的形状上有很好的应用，因为是其梯度变化的特战。但其他情况，就可能在saddle point停止运动。1e-7避免除数为0。

RMSprop

Adam

前几种的组合

在这里插入图片描述

几个正则化方法

在这里插入图片描述

随机失活（dropout）：
可以看做只用部分特征去判断一种物体，避免过分依赖某一特征。
At test time, multiply by dropout probability 或在training time除以dropout probability。
（这里的处理方式和batch normalization相似）

batch normalization是最常用的
在这里插入图片描述

Different data from ImageNet

迁移学习

迁移学习（Transfer Learning）的目标是将从一个环境中学到的知识用来帮助新环境中的学习任务。把已训练好的模型参数迁移到新的模型来帮助新模型训练。考虑到大部分数据或任务都是存在相关性的，所以通过迁移学习我们可以将已经学到的模型参数（也可理解为模型学到的知识）通过某种方式来分享给新模型从而加快并优化模型的学习效率不用像大多数网络那样从零学习。

为什么要迁移学习？

（1）站在巨人的肩膀上：前人花很大精力训练出来的模型在大概率上会比你自己从零开始搭的模型要强悍，没有必要重复造轮子。

（2）训练成本可以很低：如果采用导出特征向量的方法进行迁移学习，后期的训练成本非常低，用CPU都完全无压力，没有深度学习机器也可以做。

（3）适用于小数据集：对于数据集本身很小（几千张图片）的情况，从头开始训练具有几千万参数的大型神经网络是不现实的，因为越大的模型对数据量的要求越大，过拟合无法避免。这时候如果还想用上大型神经网络的超强特征提取能力，只能靠迁移学习。

迁移学习有几种方式

（1）Transfer Learning ：冻结预训练模型的全部卷积层，只训练自己定制的全连接层。

（2）Extract Feature Vector ：先计算出预训练模型的卷积层对所有训练和测试数据的特征向量，然后抛开预训练模型，只训练自己定制的简配版全连接网络。

（3）Fine-tune ：冻结预训练模型的部分卷积层（通常是靠近输入的多数卷积层），训练剩下的卷积层（通常是靠近输出的部分卷积层）和全连接层。

数据集1
数据量少，但数据相似度非常高
在这种情况下，我们所做的只是修改最后几层或最终的softmax图层的输出类别。
数据集2
数据量少，数据相似度低
在这种情况下，我们可以冻结预训练模型的初始层（比如k层），并再次训练剩余的（n-k）层。由于新数据集的相似度较低，因此根据新数据集对较高层进行重新训练具有重要意义。
数据集3
数据量大，数据相似度低
在这种情况下，由于我们有一个大的数据集，我们的神经网络训练将会很有效。但是，由于我们的数据与用于训练我们的预训练模型的数据相比有很大不同。使用预训练模型进行的预测不会有效。因此，最好根据你的数据从头开始训练神经网络（Training from scatch）。
数据集4
数据量大，数据相似度高
这是理想情况。在这种情况下，预训练模型应该是最有效的。使用模型的最好方法是保留模型的体系结构和模型的初始权重。然后，我们可以使用在预先训练的模型中的权重来重新训练该模型。

转自：
http://blog.itpub.net/29829936/viewspace-2641919/

yuki___

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cs231以及迁移学习

Normalization的原因以这个2元分类为例，不normalization的话，loss非常敏感，分类器稍微改变一下，对loss的影响很大。Normalization后问题得到解决。在CNN中我们希望每层都normalization，可以用batch normalizationlearning rate是第一个需要调整的超参数，但当他调好之后再调其他参数可能对learning r...
复制链接

扫一扫

专栏目录