- 博客(1)
- 收藏
- 关注
原创 Batch Norm和Dropout问题大总结
文章目录1. 为什么训练时要保证每层的方差一致?2. 什么是Covariate Shift现象?3. Batch Norm中为什么归一化后还要引入γ\gammaγ和β\betaβ?4. Batch Norm训练和测试的区别5. 为什么Dropout后需要Rescale?6. dropout与Batch Norm联合使用会产生哪些问题?7. 如何减轻该状况?1. 为什么训练时要保证每层的方差一致?每层的方差保持一致可以减缓梯度消失或爆炸。简单的说,神经网络的误差反向传播,忽略激活函数的偏导数时,相当于自后
2021-05-21 16:56:55 1267
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人