机器学习——网络设计的技巧

        这次任务是对深度学习框架的补充。从改善梯度下降法开始,梯度下降法失效的原因可能是gradient(损失函数对未知参数的一阶导)接近0,由此会产生critical point,其中包含常说的local minima、local maxima、saddle point  or very slow at the plateau。实际上local points 很少见,而通过特征根和特征向量可以识别saddle point ,再选择其中负的特征根和其对应的特征向量更新参数,我们就可以避免saddle point ,使得损失函数下降。但即使我们识别了saddle point ,高维数据的特征根和特征向量的计算也是一个难题。最为常见规避critical points 的方法有较小的batch 和 momentum。Batch 是将数据分成若干个小份得到的,对每一个batch进行梯度下降法,每个小batch卡住的点不同,故计算可以持续进行。Momentum是通过惯性略过critical points ,梯度下降法的每一步移动都与上一步的移动和gradient有关。

        梯度下降法失效,但gradient不接近于0,这可能与学习率有关。固定的学习率不足以满足每一参数的更新。故学习率需要根据参数的不同进行调整。第一种方法是Adagrad,第二种方法是RMSProp。此外,为了规避学习率的分母过小导致的 error surface 爆炸,还要使用learning rate scheduling,包括 learning rate decay 和 warm up。其中Adam 即 RMSProp 和 momentum 结合是选择最优函数的一种比较好的方法。

        对于分类,选择交叉熵作为损失函数的模型最好。最小交叉熵和极大似然函数是等价的。

        对于神经网络的输入数据,先分成若干个batch,再对每一个batch进行标准化。(feature normalization),经过一次权重后的数据也要进行标准化,为了调整输出后的分布,可以选择两个参数还原数据。对于实时变化的测试数据,均值和方差使用移动平均的均值和方差,不断更新。这样每一部分数据的标准化可以改变error surface的范围。

笔记:

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值