5.1 概述
回归:预测的结果y是连续函数值
性能评价:均方误差
泛化误差可分解为偏差、方差和噪声之和 E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D)=bias^{2}(x)+var(x)+\varepsilon ^{2} E(f;D)=bias2(x)+var(x)+ε2
5.2 最小二乘估计
目标函数:最小误差平方和
min θ ∑ i = 1 n ( y t − θ T x t − θ 0 ) 2 \displaystyle \min_{\theta}\sum_{i=1}^{n}(y_{t}-\theta^{T}x_{t}-\theta_{0})^{2} θmini=1∑n(yt−θTxt−θ0)2
[ θ ^ θ 0 ^ ] = ( X T X ) − 1 X T y \begin{bmatrix} \hat{\theta} \\\hat{\theta_{0}} \end{bmatrix}=(X^{T}X)^{-1}X^{T}y [θ^θ0^]=(XTX)−1XTy
5.3 最大似然估计
高斯误差的最大似然估计=最小二乘估计
5.4 最大后验估计
高斯分布的最大后验估计=正则化的最小二乘估计
正则项解决过拟合问题
5.5 扩展的非线性模型
线性回归: y ( x , w ) = w 0 + w 1 x 1 + . . . + w D x D y(x,w)=w_{0}+w_{1}x_{1}+...+w_{D}x_{D} y(x,w)=w0+w1x1+...+wDxD
扩展的非线性回归: y ( x , w ) = w 0 + ∑ j = 1 M − 1 w j ϕ j ( X ) y(x,w)=w_{0}+\sum_{j=1}^{M-1}w_{j}\phi _{j}(X) y(x,w)=w0+∑j=1M−1wjϕj(X)
5.6 误差分析
偏差、方差和噪声
最小二乘法是无偏估计
正则化最小二乘估计是有偏估计:
- 使参数估计更加稳定
- 相当于增加正则项
- 相当于加入白噪声