CS231n Lecture 7 Training Neural Networks part 1

本文详细介绍了神经网络的训练过程,包括激活函数的选择、数据预处理的重要性、权重初始化策略以及Batch Normalization的作用。强调了ReLU家族在解决梯度消失问题上的优势,同时讨论了Sigmoid和tanh的不足。在数据预处理方面,讨论了如何通过减去均值和标准化来改善模型训练。此外,还提到了学习率的选取和超参数优化对模型性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

overview

1.一次设置

激活函数,预处理,权重初始化,正则化,梯度检查

2.训练时动态调整

迁移学习,参数更新,超参数优化

3.评估

model ensembles, test-time augmentation

激活函数

https://cdn.jsdelivr.net/gh/QingYuAnWayne/PicStorage//20210314153729.png

与神经细胞类比:

从神经元轴突传来数据(x0)到达突触(w0) 经过树突(w0x0) 到达细胞体,通过激活函数向轴突输出数据

https://cdn.jsdelivr.net/gh/QingYuAnWayne/PicStorage//20210314154101.png

Sigmoid 函数

https://cdn.jsdelivr.net/gh/QingYuAnWayne/PicStorage//20210316185324.png

∂ σ ( x ) ∂ x = σ ( x ) ( 1 − σ ( x ) ) \frac{\partial \sigma(x)}{\partial x}=\sigma(x)(1-\sigma(x)) xσ(x)=σ(x)(1σ(x))

存在的问题:

  1. 饱和的神经元会把梯度杀死,会是0
  2. Sigmoid输出不是以0为中心的,因为是[0, 1],会导致后续的输入是以0.5为中心的分布,进而会导致出现下图的Z字收敛的情况出现。
  3. 由于损失函数对w求偏导的结果

因此,当所有的输入x都是正数的时候,上游梯度的导数要么全都是正的,要么全都是负的。因此,会导致W会以一个不好的方向收敛,会浪费时间。

∂ L ∂ w = σ ( ∑ i w i x i + b ) ( 1 − σ ( ∑ i w i

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值