机器学习笔记2

1.机器学习流程

在这里插入图片描述

2.模型问题判断与改进

在这里插入图片描述

2.1 model bias

一般是由于模型设计太过简单,此时再进行训练也无法找到更好的参数来使loss降低,解决办法为引入更多的参数,或换用神经网络进行模型设计。

2.2 optimization 

在这里插入图片描述

当loss过大的时候也有可能是由于Local optimal solution,判断是model bias的问题还是optimization的问题方法:

在这里插入图片描述

如果一个模型变的更为复杂,但是training error反而更高,就是optimization的问题 

optimization失效的原因是由于gradient为0,造成gradient为0的原因可能有两种,一种为local minima,另一种为saddle point,统称为critical point。

2.2.1 local minima or saddle point ?

在这里插入图片描述

 对loss函数利用泰勒展开到二阶导项,由于在critical point的梯度为0,因此主要看二阶导项,当H为正定矩阵的话,L(\theta')<L(\theta),即周围点的值均小于θ处的值,因此为local minima,当H为负定矩阵时,L(\theta')>L(\theta),即周围点的值均大于θ处的值,因此为local maxima。如果H矩阵的一些特征值大于0,一些小于0,则为saddle point。

在这里插入图片描述

在saddle point处还可进行update:找到特征值大于0的使得找到更小的loss逃离saddle point

在这里插入图片描述 

 2.3 batchszie

一般在训练时,我们需要将数据集打包为多个batch,当我们对loss做微分时,并不是一次对所有data做微分,而是分成了很多batch,每一次更新都只用了一个batch 的资料。所有的batch都训练后一遍,叫做一个epoch。 而每一次epoch后我们还会做一次Shuffle,把每个batch的data与之前选择的不一样。

在这里插入图片描述

为什么要使用batch:

在这里插入图片描述

在这里插入图片描述

2.4Momentum 

Momentum(动量):参考物理中动量的概念,将动量的概念拿到optimization中进行优化,进行参数优化时不仅仅考虑gradient还需要考虑momentum,新的参数为gradient和momentum结合的结果:

在这里插入图片描述

2.5 Learning rate

y

当loss不再下降时不一定是到达了critical point,有可能是由于learning rate的缘故造成参数反复横跳,而loss却不再下降,看起来像是到达了critical point,因此需要将learning rate改为随gradient和时间变化的值:

在这里插入图片描述 2.5.1 Root Mean Square 

在这里插入图片描述

root mean square运用的是方均根的方式得出learning rate,使得gradient大的地方step大,gradient小的地方step小。

2.5.2 RMSProp 

在这里插入图片描述RMSProp与root mean square相比不同地方在于进行了加权,而不是均分,可以自动调整learning rate,此中的α也为超参数。

2.5.3 Adam

如今常用的方法为Adam,其实原理即为RMSProp + Momentum。

在这里插入图片描述

2.5.4 Learning Rate Scheduling 

在这里插入图片描述由于当learning rate不随时间变化时,可能在某一处梯度过小造成积累使得δ变小,learning rate逐渐变大,发生梯度爆炸,因此我们使用Learning Rate Decay与Warm Up。

在这里插入图片描述2.5.5 Summary

在这里插入图片描述

2.6 overfitting

在这里插入图片描述

当发生overffing时,会在training data中得到很小的loss,而在test data中得到很大的loss。

Solution:

1.进行data augmentation,即数据增强,获得更大的训练集,增加训练数据。

在这里插入图片描述

2.减少flexible

给模型一些限制,减少模型参数、让model公用参数、更少的训练Feature、早停法、Regularization(正则化)、Dropout

3. 同时不能过度限制模型,否则会出现以下问题

在这里插入图片描述 需要选择合适的点:

在这里插入图片描述

同时可以采取将数据进行N等分测试训练模型

在这里插入图片描述

图片参考李宏毅2021春季机器学习课程笔记2:General Guidance_Andy in boots的博客-CSDN博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值