机器学习笔记2

最新推荐文章于 2024-08-24 00:47:25 发布

wolf_qu

最新推荐文章于 2024-08-24 00:47:25 发布

阅读量396

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/wolf_qu/article/details/123809350

版权

1.机器学习流程

在这里插入图片描述

2.模型问题判断与改进

在这里插入图片描述

2.1 model bias

一般是由于模型设计太过简单，此时再进行训练也无法找到更好的参数来使loss降低，解决办法为引入更多的参数，或换用神经网络进行模型设计。

2.2 optimization

在这里插入图片描述

当loss过大的时候也有可能是由于Local optimal solution，判断是model bias的问题还是optimization的问题方法：

在这里插入图片描述

如果一个模型变的更为复杂，但是training error反而更高，就是optimization的问题

optimization失效的原因是由于gradient为0，造成gradient为0的原因可能有两种，一种为local minima，另一种为saddle point，统称为critical point。

2.2.1 local minima or saddle point ？

在这里插入图片描述

对loss函数利用泰勒展开到二阶导项，由于在critical point的梯度为0，因此主要看二阶导项，当H为正定矩阵的话，L( $\theta$ ')<L( $\theta$ )，即周围点的值均小于θ处的值，因此为local minima，当H为负定矩阵时，L( $\theta$ ')>L( $\theta$ )，即周围点的值均大于θ处的值，因此为local maxima。如果H矩阵的一些特征值大于0，一些小于0，则为saddle point。

在这里插入图片描述

在saddle point处还可进行update：找到特征值大于0的使得找到更小的loss逃离saddle point

在这里插入图片描述

2.3 batchszie

一般在训练时，我们需要将数据集打包为多个batch，当我们对loss做微分时，并不是一次对所有data做微分，而是分成了很多batch，每一次更新都只用了一个batch 的资料。所有的batch都训练后一遍，叫做一个epoch。而每一次epoch后我们还会做一次Shuffle，把每个batch的data与之前选择的不一样。

在这里插入图片描述