无监督的、逐层的预训练 作者认为,无监督预训练可以为参数,提供先验(prior or regularizer),而且这种先验分布或者说是正则化,与传统的形式不同,它没有显示的正则化项,并且是依赖于数据自动发现。 正则化带来的效用会随着模型的复杂性的增大而增大。 但是实验结果显示,这个效应只有对layer size 足够大(100个隐藏层),网络足够深。无监督的预训练带来的效益才才会随着模型的复杂性增加而增加。 对于简单的网络,无监督的预训练反而是多余的。