類神經網路訓練不起來怎麼辦 (五): 批次標準化 (Batch Normalization) 簡介
做Feature Normalization:
为了更好的train, error surface更平滑, train更快(可能也更好)
实做中,Feature Normalization在Activation Function(e.g. Sigmoid)前或后,效果差异不大
网络中经过normalization之后,可能会再乘回 γ 和 β \gamma 和 \beta γ和β ,让特征回到原来的大小比例
Stackoverflow上有说,CNN中做batchnorm是减少使用bias的新方法( ? )
Testing的时候会存储之前的 μ 和 σ \mu和\sigma μ和σ,不用等完整的batch进来就可以用来normalization