1. 假设函数
其中,
θ
为权重,
x
为样本,
2. 最小二乘损失函数
目标:寻找 θ ,使理论值 hθ(x(i)) 接近于观测值 y 。
3. 求解
将损失函数改写成矩阵形式:
当导数为0时,取到极小值:
令 ∇θJ(θ)=0 ,可得: θ=(XTX)−1XTy⃗
- 当
X
为非奇异矩阵时:
θ=X−1y⃗ - 当
X
为奇异矩阵或长方阵时:
θ=X+y⃗
4. 用极大似然估计解释为什么选择最小二乘
其中, y(i) 为观测值, h(x)=θTx(i) 为理论值, ε(i) 为预测误差。
ε(i)∼N(0,σ2)
,即:
则
y(i)∼N(θTx(i),σ2)
,即:
p(y(i)|x(i);θ) 表示给定 x(i) 和 θ 后, y(i) 的分布。
极大似然估计:
maxL(θ)
等价于
maxlogL(θ)
∴maxl(θ)
等价于:
即最小二乘损失函数。
5. 正则化
注意: θ0 为偏置,不加正则。
梯度下降
j=0
时,即偏置:
j>0
时,即权重:
其中, αλm 略小于1,每次更新后会削减权重。
6. 扩展
- Ridge 回归=线性回归+L2正则
- LASSO 回归=线性回归+L1正则