深度学习
文章平均质量分 97
糖葫芦君
这个作者很懒,什么都没留下…
展开
-
cross entropy 与 square error(square error在神经网络中的梯度消失问题)
在训练神经网时,应该使用哪一个呢?如果是回归问题,用均方误差(MSE).如果是分类问题,一般用交叉熵损失(CE).因为MSE容易发生梯度消失问题,而CE则不会.以分类问题为例,假设我们的类别数量为T,最后一层使用softmax.对一条样本(x,c)而言,其label为c.在神经网络softmax之前的那一层,共有T个神经元:不管是用MSE还是CE,我们都是希望ycy_cyc越大越好,其...原创 2018-12-15 17:01:50 · 2084 阅读 · 0 评论 -
优化方法总结以及Adam存在的问题(SGD, Momentum, AdaDelta, Adam, AdamW,LazyAdam)
文章目录优化方法概述整体框架SGDMomentum理解指数加权平均偏差修正AdaGradAdaDelta/RMSPropAdam(Adaptive Moment Estimation)Adam+L2 regularizationL2 regularization与Weight decay学习率衰减局部最优优化方法概述模型优化方法的选择直接关系到最终模型的性能。有时候效果不好,未必是特征的问题或...原创 2019-05-29 01:07:50 · 34688 阅读 · 12 评论