梯度消亡的解决方案
采用不使用梯度的网络训练方法:https://link.springer.com/article/10.1007/s10898-012-9951-y(Derivative- free optimization: a review of algorithms and comparison of software implementa
- 基于遗传、进化算法
- 粒子群优化算法
过拟合
过拟合就是训练时的表现特别好,但是网络并没有学到一个好的解决问题的方法,导致测试时的结果反而特别差。
过拟合的解决方法
- DropOut
- L2正则化
- L1正则化
- MaxNorm
过拟合的网络:
. DropOut训练:
DropOut的使用:在训练时先确定DropOut rate的数, 根据具体的训练任务,来确定隐藏某个隐藏层的节点。在训练结束后,还是要恢复整个网络,以后的使用也是用以前的网络。由于在训练时去掉了某个隐藏层的节点,导致参数增大,最后需要每个参数都要乘以 1-DropOut 这个系数。