1.多维的梯度,其实是一个向量,由performance对特征的各个维的parameter即theta(i)求偏导,组成列向量后归一化,得到对梯度的描述。
2.下降速度,是一个步长,乘以梯度后得到performance的变化量。
3.
4.对只有一个样本而言,梯度为,
对有多个样本而言,梯度为
5.每一次学习,,其中alpha为学习速度,越快越容易逼近,但容易错过极小值。
6.这像是在寻找数列的收敛的极限。
7.相对于batch gradient descent批梯度下降算法,incremental gradient descent增量梯度算法不是将所有样本作为一次迭代的参数计算performance,而是将每个样本单独作为一次迭代的参数,这导致会徘徊着下降并在最值周边徘徊而不一定收敛,但是速度非常快。
8.检验收敛的方式是检测的增量或者梯度的大小。
9.向量的解析式求法: