将BN层的 γ \gamma γ初始化0: 对于ResNet来说,可以将残差块后面接的batch normalization层的 γ x ^ + β \gamma \hat{x}+\beta γx^+β 中的 γ \gamma γ 初始化为0。这样做的好处是,在初始化阶段可以简化网络,更快训练。