两种不同的训练模型的方法:
-
通过“闭式”方程——直接计算出最适合训练集的模型参数(也就是使得训练集上的成本函数最小化的模型参数)
-
使用迭代优化的方法,即梯度下降法(GD),逐渐调整模型参数直至训练集上的成本函数至最低,最终趋同于第一种方法计算出来的模型参数。
本章从最简单的线性回归模型开始,然后训练稍微复杂的多项式回归。因为多项式模型参数较多,容易造成对训练数据过度拟合,我们使用学习曲线来分辨是非发生了过拟合,也可以使用正则化技巧避免发生过拟合。
线性回归
:对输入特征的加权求和,再加上截距项。
(1) y ^ = θ 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ n x n \hat{y}=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n \tag{1} y^=θ0+θ1x1+θ2x2+⋯+θnxn(1)
- y ^ \hat{y} y^是预测值
- n是特征的数量
- x i x_i xi是第i个特征值
- θ i \theta_i θi是第i个模型参数
将式1转换为向量模式:
(2) y ^ = h 0 ( X ) = θ T ⋅ X \hat{y}=h_0(X)=\theta^T\cdot{X}\tag{2} y^=h0(X)=θT⋅X(2)
线性回归模型的MSE成本函数:
(3) M S E ( X , h θ ) = 1 m ∑ i = 1 m ( θ T ⋅ X ( i ) − y ( i ) ) 2 MSE(X,h_\theta) = \frac{1}{m}\sum_{i = 1} ^m(\theta^T\cdot{X^{(i)}} - y^{(i)})^2\tag{3} MSE(X,hθ)=m1i=1∑m(θT⋅X(i)−y(i))2(3)
标准方程
为了得到使成本函数最小的 θ \theta θ值,有一个闭式解方法,即标准方程:
(4) θ ^ = ( X T ⋅ X ) − 1 ⋅ X T ⋅ y \hat{\theta}=(X^T\cdot{X})^{-1}\cdot{X^T}\cdot{y}\tag{4} θ^=(XT⋅X)−1⋅XT⋅y(4