机器学习——网络设计的技巧

最新推荐文章于 2022-07-21 01:09:16 发布

Mia~~

最新推荐文章于 2022-07-21 01:09:16 发布

阅读量652

点赞数

分类专栏：机器学习文章标签：机器学习网络人工智能

本文链接：https://blog.csdn.net/weixin_55118952/article/details/122588144

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这次任务是对深度学习框架的补充。从改善梯度下降法开始，梯度下降法失效的原因可能是gradient(损失函数对未知参数的一阶导)接近0，由此会产生critical point,其中包含常说的local minima、local maxima、saddle point or very slow at the plateau。实际上local points 很少见，而通过特征根和特征向量可以识别saddle point ，再选择其中负的特征根和其对应的特征向量更新参数，我们就可以避免saddle point ,使得损失函数下降。但即使我们识别了saddle point ，高维数据的特征根和特征向量的计算也是一个难题。最为常见规避critical points 的方法有较小的batch 和 momentum。Batch 是将数据分成若干个小份得到的，对每一个batch进行梯度下降法，每个小batch卡住的点不同，故计算可以持续进行。Momentum是通过惯性略过critical points ，梯度下降法的每一步移动都与上一步的移动和gradient有关。

梯度下降法失效，但gradient不接近于0，这可能与学习率有关。固定的学习率不足以满足每一参数的更新。故学习率需要根据参数的不同进行调整。第一种方法是Adagrad,第二种方法是RMSProp。此外，为了规避学习率的分母过小导致的 error surface 爆炸，还要使用learning rate scheduling,包括 learning rate decay 和 warm up。其中Adam 即 RMSProp 和 momentum 结合是选择最优函数的一种比较好的方法。

对于分类，选择交叉熵作为损失函数的模型最好。最小交叉熵和极大似然函数是等价的。

对于神经网络的输入数据，先分成若干个batch，再对每一个batch进行标准化。(feature normalization),经过一次权重后的数据也要进行标准化，为了调整输出后的分布，可以选择两个参数还原数据。对于实时变化的测试数据，均值和方差使用移动平均的均值和方差，不断更新。这样每一部分数据的标准化可以改变error surface的范围。

笔记：

Mia~~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习——网络设计的技巧

这次任务是对深度学习框架的补充。从改善梯度下降法开始，梯度下降法失效的原因可能是gradient(损失函数对未知参数的一阶导)接近0，由此会产生critical point,其中包含常说的local minima、local maxima、saddle point or very slow at the plateau。实际上local points 很少见，而通过特征根和特征向量可以识别saddle point ，再选择其中负的特征根和其对应的特征向量更新参数，我们就可以避免saddle...
复制链接

扫一扫