5.类神经网络训练不起来怎么办（二）：Batch、Momentum

Shannnon_sun

已于 2023-01-05 10:31:54 修改

阅读量94

点赞数

分类专栏：李宏毅机器（深度）学习笔记文章标签：神经网络 batch 深度学习

于 2023-01-04 12:53:56 首次发布

本文链接：https://blog.csdn.net/weixin_53451004/article/details/128546339

版权

李宏毅机器（深度）学习笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

类神经网络训练不起来怎么办（二）

Batch

每个Batch更新一次参数，所有Batch遍历一次叫做Epoch

Small Batch v.s. Large Batch

Batch size=N

所有资料看过一遍更新参数
Batch size=1

每一个资料更新一次参数

大的Batch size不一定比小的更新参数的时间长

Parallel computing：Gpu的并行运算（有极限）

小的Batch size需要更长的遍历一次epoch

需要更久的时间遍历所有数据

大的Batch size在Training data得到不好的结果

Optimization issue: 大的Batch容易卡在critical point

Batch size是一个超参数需要我们自己决定

Momentum

不止考虑梯度的反方向，同时考虑前一步怎么走的

第一次：

选择 $\theta_0$ 开始
前一次移动 $m^0=0$
计算梯度 $g^0$
移动 $m^1=\lambda m^0-\eta g^0,\theta^1=\theta^0+m^1$

第二次开始：

计算梯度 $g^1$
移动 $m^2=\lambda m^1-\eta g^1,\theta^2=\theta^1+m^2$

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Shannnon_sun

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5.类神经网络训练不起来怎么办（二）：Batch、Momentum

Batch Momentum
复制链接

扫一扫

专栏目录

2021李宏毅《机器学习/深度学习》 5. 神经网络训练不起来

槐序的小山洞

03-11

1182

笔记

神经网络训练模型

weixin_44773732的博客

01-25

2053

神经网络训练模型在神经网络中，有输入层、隐层、输出层，输入层相当于输入图像信号矩阵，隐层相当于神经元，输出层相当于运算结果。就像是分蛋糕一样，一个神经元相当于对蛋糕切了一刀，n个神经元就是切了n刀，看怎么切蛋糕能将目标点切得更开，分的更准。一块区域中有红色点和绿色点，我们要预测未来落在该区域内的点是红色点还是绿色点的可能性大，将每个不同颜色的点划分为小邻域，在该邻域内，点是这个颜色的可能性比较大一些，下面是训练代码： layer_defs = []; layer_defs.push({ty

参与评论您还未登录，请先登录后发表或查看评论

2021李宏毅机器学习（3）：类神经网络训练不起来怎么办

niexinyu0026的博客

02-13

2066

2021李宏毅机器学习（3）：类神经网络训练不起来怎么办1 任务攻略1.1 如果在训练集上的 loss 始终不够小1.2 如果 loss 在训练集上小，在测试集上大1.3 任务攻略的示意图2 局部最小值 (local minima) 与鞍点 (saddle point)3 批次（batch）与动量（momentum）3.1 批次（batch）3.2 动量（momentum） 1 任务攻略 1.1 如果在训练集上的 loss 始终不够小情况一：model bias（模型本身有很大限制）——构造更复杂的模型

机器学习--神经网络训练：批次（batch）和动量（momentum）

projectfailed的博客

10-17

1909

之前介绍过了，把训练数据分为很多个batch，然后每个batch算梯度并更新，所有batch全部计算过一次为一个，在一个echo完成后下一个echo前，需要先进行（洗牌，打乱次序），即再次将训练数据重新分配，与之前的分配方式区别开。

类神经网络训练不起来怎么办——机器学习模型训练指南

ji_meng的博客

04-05

1539

一些训练的tips

一杯水果茶！足矣~

12-06

9235

（9）-2类神经网络训练不起来怎么办？

upupyon996deqing的博客

04-16

3124

Batch Review:Optimization with Batch batch是怎么做的呢？实际上我们我们再算微分的时候，不是真的对所有的数据算出来的L作微分，而是将L 分成N 个batch，当我们更新参数的时候是将其中的一个Batch拿出来算gradient，然后在更新参数。再拿另一个batch算gradient ，更新参数，以此类推，并不是拿所有的的数据一起去算Loss.将所有的batch算一遍的方法叫做1 epoch。实际上在做batch的时候会做一件事情叫做shuffle，shuffl

机器学习关于Batch and Momentum

weixin_51745630的博客

03-15

1454

Batch 在机器学习基本概念中讲述了Optimization的方法，我们可以将训练资料划分为batches 不断用batch进行参数更新，直至所有看完batch，为一个epoch。每过一个epoch，将batches打乱。使用batch的原因 Batch size = N (Full batch) 一个batch包含所有的训练资料，即不使用batch的情况。看完所有训练资料更新一次参数。Batch Size大，可归为Large Batch。 Batch size = 1 每看一笔训练资料更新一次参数，

神经网络调参：loss 问题汇总（震荡/剧烈抖动，loss不收敛/不下降）

热门推荐

ytusdc的博客

08-01

13万+

一、模型不收敛主要有以下几个原因： 1、learning rate设大了会带来跑飞（loss突然一直很大）的问题这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss...

Pytorch与深度学习 —— 3. 如何利用 CUDA 加速神经网络训练过程

老程的技术笔记

08-26

1万+

文章目录在前一篇文章里给大家示范了一下如何用Pytorch构建最基础的全连接训练网络，并且写了一个基于FNN的MNIST手写数字识别器。在这一章里，我们将进一步研究如何使用CUDA加速网络的收敛过程。 ...

深度神经网络训练中梯度不稳定现象研究综述.pdf

09-26

"深度神经网络训练中梯度不稳定现象研究综述" 深度神经网络训练中梯度不稳定现象是机器学习领域中一个重要的研究方向。梯度不稳定现象是指在深度神经网络训练过程中，损失函数的梯度值发生剧烈变化，导致网络无法...

神经网络里的mini-batch算法.zip

12-18

综上所述，小批量梯度下降是神经网络训练中的核心算法，它在兼顾效率和效果方面起到了关键作用，是推动深度学习技术发展的重要力量。通过对小批量的选取和优化策略的运用，我们可以更高效地训练复杂的深度学习模型，...

用Pytorch构建神经网络进行分类

10-07

PyTorch是一个开源的Python库，它提供了强大的工具来构建和训练神经网络，同时也支持动态计算图，使得模型的构建更加灵活。下面将详细讨论如何使用PyTorch构建神经网络并应用于分类任务。首先，我们需要导入必要的...

用PyTorch实现卷积神经网络解决FashionMNIST分类挑战

05-07

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，尤其适用于图像处理任务，如图像分类。在本教程中，我们将探讨如何使用PyTorch框架来构建和训练一个CNN，以解决FashionMNIST数据集的...

神经网络中的优化方法

liuzibujian的博客

08-07

1363

在之前的文章中介绍了神经网络中的损失函数。有了损失函数之后，就要求损失函数的最小值，并且需要求出参数（这个参数可能是神经网络中的W或b）在取什么值时，损失函数才能取到最小值。那么这个就是优化方法做的事情。这篇文章就来介绍一下神经网络中的优化方法。

图神经网络实战（18）——消息传播神经网络