梯度下降:
假设 y=f(x)
导数:dy>0 ,则随x增加y值变大,dy<0 ,则随x增加y变小,导数的大小表示y随x变化的快慢
当我们最小化目标函数时,参数x用下式更新,alpha为常数
x := x-alpha*dy
当 dy>0 时 ,则随x增加y值变大,上式x值减小,则y值也减小
当 dy<0 时 ,则随x增加y值变小,上式x值变大,则y值减小
同理,当我们最大化目标函数时,参数x用下式更新,alpha为常数
x := x+alpha*dy
随机梯度下降:
每次用单个样本更新参数
特点:
处理大规模数据集速度快,无法达到全局最优,在全局最优附近游走