梯度下降 gradient descen

最新推荐文章于 2022-06-26 17:38:17 发布

xinshoubugei

最新推荐文章于 2022-06-26 17:38:17 发布

阅读量237

点赞数

分类专栏： ML

本文链接：https://blog.csdn.net/xinshoubugei/article/details/52932141

版权

ML 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.多维的梯度，其实是一个向量，由performance对特征的各个维的parameter即theta(i)求偏导，组成列向量后归一化，得到对梯度的描述。

2.下降速度，是一个步长，乘以梯度后得到performance的变化量。

3. $performance = \frac{1}{2}\left ( \sum_{i=1}^{n} h_{\theta i}\left ( x \right ) - y \right )^{2} = J\left (\theta \right )$

4.对只有一个样本而言， $\theta_{i}$ 梯度为 $\frac{\partial \frac{1}{2}\left (h_{\theta}\left (x \right) - y \right )^{2}}{\partial \theta_{i}} = (h_{\theta}(x) - y)\ast x_{i}$ ，

对有多个样本而言， $\theta_{i}$ 梯度为 $\frac{\partial \frac{1}{2}\sum_{j=1}^{n}\left(h_{\theta}\left(x^{\left(j \right )}\right)-y^{\left(j \right )}\right)^{2}}{\partial \theta_{i}} = \sum_{j=1}^{n}\Big(\left(h_{\theta}\left(x^{\left(j \right )} \right )-y^{\left(j\right)} \right )*x_{i}^{\left(j \right )} \Big)$

5.每一次学习， $\theta_{i} = \theta{i} - \alpha*gradient$ ，其中alpha为学习速度，越快越容易逼近，但容易错过极小值。

6.这像是在寻找 $\theta_{i}$ 数列的收敛的极限。

7.相对于batch gradient descent批梯度下降算法，incremental gradient descent增量梯度算法不是将所有样本作为一次迭代的参数计算performance，而是将每个样本单独作为一次迭代的参数，这导致 $\theta_{i}$ 会徘徊着下降并在最值周边徘徊而不一定收敛，但是速度非常快。

8.检验收敛的方式是检测 $\theta_{i}$ 的增量或者梯度的大小。

9. $\theta$ 向量的解析式求法： $\theta = \left(x^{T}x \right )^{-1}x^{T}y$