在
V1
的基础之上主要做了以下改进:
(1)
使用
BN
层,将每一层的输出都规范化到一个
N(0,1)
的正态分布,这将有助于训练,因为下一层不必学习输入数据中的偏移,并且可以专注与如何更好地组合特征(也因为在 v2 里有较好的效果,BN
层几乎是成了深度网络的必备);
(在
Batch-normalized
论文中只增加了
BN
层,而之后的
Inception V3
的论文提及到