之前因为一些书的编排结构,让我对神经网络的作用机理搞的乱七八糟的,自己记性也不好,趁现在刚梳理了一遍,把记录下来。
给网络输入一个数据x,在网络及其中参数的作用下会得到一个输出。然后将输出与标签值进行做差计算可得到该数据输入下的损失函数值,该损失函数可表示为L=L(w,b,x)w和b是所有层中的的权重和偏置,因为数据x是已知的且不需要更新的,所以损失函数可表示为L=L(w,b),也就是说L是w和b的函数(实际上w和b也是已知的具体的数,但是因为我们要更新w和b,所有将w和b看做变量)。然后我们通过优化函数-------------利用损失函数对每一个参数w和b求偏导,并带入此时的w、b、x的值,再和学习率的作用下得到微调值-------------对w和b进行更新(常见的优化函数有:GD、BGD、SGD、Adam等。)。对每个参数求偏导并带入此时的w、b、x的值的过程其实就是所谓的反向传播算法。