CS231n Lecture 7 Training Neural Networks part 1

最新推荐文章于 2021-08-25 14:54:58 发布

QingYuAn_Wayne

最新推荐文章于 2021-08-25 14:54:58 发布

阅读量419

点赞数

分类专栏： CS231n 学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43996402/article/details/115795427

版权

本文详细介绍了神经网络的训练过程，包括激活函数的选择、数据预处理的重要性、权重初始化策略以及Batch Normalization的作用。强调了ReLU家族在解决梯度消失问题上的优势，同时讨论了Sigmoid和tanh的不足。在数据预处理方面，讨论了如何通过减去均值和标准化来改善模型训练。此外，还提到了学习率的选取和超参数优化对模型性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

overview

1.一次设置

激活函数，预处理，权重初始化，正则化，梯度检查

2.训练时动态调整

迁移学习，参数更新，超参数优化

3.评估

model ensembles, test-time augmentation

文章目录

激活函数

与神经细胞类比：

从神经元轴突传来数据（x0）到达突触（w0）经过树突（w0x0）到达细胞体，通过激活函数向轴突输出数据

Sigmoid 函数

$\frac{\partial \sigma(x)}{\partial x}=\sigma(x)(1-\sigma(x))$

存在的问题：

饱和的神经元会把梯度杀死，会是0
Sigmoid输出不是以0为中心的，因为是[0, 1]，会导致后续的输入是以0.5为中心的分布，进而会导致出现下图的Z字收敛的情况出现。
由于损失函数对w求偏导的结果

因此，当所有的输入x都是正数的时候，上游梯度的导数要么全都是正的，要么全都是负的。因此，会导致W会以一个不好的方向收敛，会浪费时间。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。