机器学习笔记3-1

3-1 Gradient Descent

  1. Gradient Descent(《机器学习笔记1前半段》已学习了大概
    在这里插入图片描述
    其中ⴄ:learning rate 学习速度 是一个常数(g^t微分以后的常数项放在了ⴄ下面)
    在这里插入图片描述
    将其可视画(gradient就是等高线的法向方向)
    在这里插入图片描述
    (gradient一直在变方向,因为每次乘learning rate的时候都要取相反数)
  2. Tip 1 小心设置learning rate (learning rate太慢时间过长,太快步伐会太大直接跳过了山谷)
    通过可视化loss随参数更新的变化趋势判断learning rate合不合适
    ①learning rate太大——loss快速下降然后卡住
    ②learning rate太小——loss下降非常慢
  3. 如何调learning rate:最好因材施教
    在这里插入图片描述
  • Adagrad:每一个参数的learning rate都除之前微分值的root mean square
    例:在这里插入图片描述
    Adagrad表达式
    在这里插入图片描述
    有一个以上的元素的时候应该考虑一阶微分和二阶微分
    在这里插入图片描述
  1. Tip 2 Stochastic Gradient descent
    在这里插入图片描述
    每次拿一个x^n计算loss 看一个example就update一个
    会比gradient descent快
  2. Tip 3 Feature scaling
    在这里插入图片描述
    两个input feature,如果它们分布很不一致就做scaling这样它们的分布一样
    使得两个因素对loss的影响一样
  • 常见做法:每个值减去平均值除以方差,最后使得平均值0方差1(标准正态分布)
    在这里插入图片描述
  1. Gradient Descent的理论基础
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值