为参数项, 为误差项(表示真实值和预测值的误差)
误差项服从高斯分布
代入=Y-X,得
所有项相乘得似然函数,越大表示预测值和真实值越接近
取对数得对数似然函数,累乘转换为累加,同样求函数值最大时的参数项
为了让似然函数取到极大值,我们需要将其中带参部分取得最小值
为了寻找取得最小值的参数,用最小二乘法求解
对变形
对求偏导
对于线性回归问题我们可以直接令偏导等于0,然后解出参数,但是线性回归是个特例,对于更多的问题我们需要引入——梯度下降法
定义(整体)损失函数
其中为多维参数
对某参数求偏导,得到梯度
该参数向梯度的反方向进行更新
注意:梯度更新采用批量梯度下降的方法,也就是计算时的m为一个batch的样本,batch选的越大,结果越精确,但速度越慢,batch选的小速度快,但不一定精确。通常使用较小batch的梯度下降,batch一般采取2的次幂
关于梯度下降的步长,我们将其称为学习率(LR)
大多情况来看,学习率应该设置得比较小,一般为0.01,0.001