梯度下降 gradient descen

1.多维的梯度,其实是一个向量,由performance对特征的各个维的parameter即theta(i)求偏导,组成列向量后归一化,得到对梯度的描述。

2.下降速度,是一个步长,乘以梯度后得到performance的变化量。

3.

4.对只有一个样本而言,梯度为

对有多个样本而言,梯度为

5.每一次学习,,其中alpha为学习速度,越快越容易逼近,但容易错过极小值。

6.这像是在寻找数列的收敛的极限。

7.相对于batch gradient descent批梯度下降算法,incremental gradient descent增量梯度算法不是将所有样本作为一次迭代的参数计算performance,而是将每个样本单独作为一次迭代的参数,这导致会徘徊着下降并在最值周边徘徊而不一定收敛,但是速度非常快。

8.检验收敛的方式是检测的增量或者梯度的大小。

9.向量的解析式求法:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值