2021年05月_66Kevin

12月 05月 04月 03月 01月

原创 Batch Norm和Dropout问题大总结

文章目录1. 为什么训练时要保证每层的方差一致?2. 什么是Covariate Shift现象？3. Batch Norm中为什么归一化后还要引入γ\gammaγ和β\betaβ？4. Batch Norm训练和测试的区别5. 为什么Dropout后需要Rescale？6. dropout与Batch Norm联合使用会产生哪些问题？7. 如何减轻该状况？1. 为什么训练时要保证每层的方差一致?每层的方差保持一致可以减缓梯度消失或爆炸。简单的说，神经网络的误差反向传播，忽略激活函数的偏导数时，相当于自后

2021-05-21 16:56:55 1267

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人