梯度下降算法
由于y是w,b的非凸函数
以此类推,找到局部极小值(乡下山一样,每走一步,就用导数判断一下,朝最小的方向迈出一小步)
a很大,有可能错过极值点,a很小,得用很多步
后向传播算法
梯度下降法要求九个偏导数,
先推导E对“枢纽变量”的偏导数
由于y是w,b的非凸函数
以此类推,找到局部极小值(乡下山一样,每走一步,就用导数判断一下,朝最小的方向迈出一小步)
a很大,有可能错过极值点,a很小,得用很多步
梯度下降法要求九个偏导数,
先推导E对“枢纽变量”的偏导数