http://www.cnblogs.com/pinard/p/5970503.html

梯度下降法的代数方式描述

    1. 先决条件: 确认优化模型的假设函数和损失函数。

    比如对于线性回归,假设函数表示为  hθ(x1,x2,...xn)=θ0+θ1x1+...+θnxn, 其中 θi (i = 0,1,2... n)为模型参数, xi (i = 0,1,2... n)为每个样本的n个特征值。这个表示可以简化,我们增加一个特征 x0=1 ,这样 hθ(x0,x1,...xn)=∑i=0nθixi

    同样是线性回归,对应于上面的假设函数,损失函数为:

            J(θ0,θ1...,θn)=12m∑i=0m(hθ(x0,x1,...xn)−yi)2

 

    2. 算法相关参数初始化:主要是初始化 θ0,θ1...,θn,算法终止距离 ε以及步长 α。在没有任何先验知识的时候,我喜欢将所有的 θ初始化为0, 将步长初始化为1。在调优的时候再 优化。

    3. 算法过程:

      1)确定当前位置的损失函数的梯度,对于 θi,其梯度表达式如下:

         ∂∂θiJ(θ0,θ1...,θn)

      2)用步长乘以损失函数的梯度,得到当前位置下降的距离,即 α∂∂θiJ(θ0,θ1...,θn)对应于前面登山例子中的某一步。

      3)确定是否所有的 θi,梯度下降的距离都小于 ε,如果小于 ε则算法终止,当前所有的 θi(i=0,1,...n)即为最终结果。否则进入步骤4.

      4)更新所有的 θ,对于 θi,其更新表达式如下。更新完毕后继续转入步骤1.

         θi=θi−α∂∂θiJ(θ0,θ1...,θn)

    下面用线性回归的例子来具体描述梯度下降。假设我们的样本是 (x1(0),x2(0),...xn(0),y0),(x1(1),x2(1),...xn(1),y1),...(x1(m),x2(m),...xn(m),yn),损失函数如前面先决条件所述:

     J(θ0,θ1...,θn)=12m∑i=0m(hθ(x0,x1,...xn)−yi)2

    则在算法过程步骤1中对于 θi 的偏导数计算如下:   

      ∂∂θiJ(θ0,θ1...,θn)=1m∑j=0m(hθ(x0j,x1j,...xnj)−yj)xij

    由于样本中没有 x0上式中令所有的 x0j为1.

    步骤4中 θi的更新表达式如下:

            θi=θi−α1m∑j=0m(hθ(x0j,x1j,...xnj)−yj)xij

    从这个例子可以看出当前点的梯度方向是由所有的样本决定的,加 1m 是为了好理解。由于步长也为常数,他们的乘机也为常数,所以这里 α1m可以用一个常数表示。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值