1. 多项式回归 Polynomial Regression
对线性模型的推广:以预测变量的幂作为新的预测变量来代替原始变量。
将标准线性模型 y i = β 0 + β 1 x i + ϵ i y_{i}=\beta_{0}+\beta_{1} x_{i}+\epsilon_{i} yi=β0+β1xi+ϵi换成一个多项式函数
y i = β 0 + β 1 x i + β 2 x i 2 + β 3 x i 3 + … + β d x i d + ϵ i y_{i}=\beta_{0}+\beta_{1} x_{i}+\beta_{2} x_{i}^{2}+\beta_{3} x_{i}^{3}+\ldots+\beta_{d} x_{i}^{d}+\epsilon_{i} yi=β0+β1xi+β2xi2+β3xi3+…+βdxid+ϵi
对于阶数d较大的模型,多项式回归将呈现明显的非线性曲线。
多项式回归本质上可视为标准线性模型,可以用最小二乘回归的方法求解,d不宜过大(<3、4)。d过大,多项式曲线就会越光滑甚至在X变量定义域的边界外呈现异样的形状。
2. 阶梯函数 Step Functions
“其拟合是将某个预测变量的取值空间切割成K个不同区域,以此来生成一个新的定性变量,分段拟合一个常量函数。”
在线性模型中使用特征变量的多项式形式作为预测变量得到了在X取值空间全局都非线性的拟合函数。如果不希望得到全局的模型,可以使用阶梯函数拟合。
把X的取值范围分成一些区间,每个区间拟合一个不同的常数。相当于将一个连续变量转换成一个有序的分类变量。
具体过程:
首先在X取值空间上创建分割点c1, c2, …, ck,然后构造K+1个新变量如下:
C 0 ( X ) = I ( X < c 1 ) C 1 ( X ) = I ( c 1 ≤ X < c 2 ) , C 2 ( X ) = I ( c 2 ≤ X < c 3 ) , ⋮ C K − 1 ( X ) = I ( c K − 1 ≤ X < c K ) , C K ( X ) = I ( c K ≤ X ) \begin{aligned} &C_{0}(X)=I\left(X<c_{1}\right) \\ &C_{1}(X)=I\left(c_{1} \leq X<c_{2}\right), \\ &C_{2}(X)=I\left(c_{2} \leq X<c_{3}\right), \\ & & \vdots \\ &C_{K-1}(X)=I\left(c_{K-1} \leq X<c_{K}\right), \\ &C_{K}(X)=I\left(c_{K} \leq X\right) \end{aligned} C0(X)=I(X<c1)C1(X)=I(c1≤X<c2),C2(X)=I(c2≤X<c3),CK−1(X)=I(cK−1≤X<cK),CK(X)=I(cK≤X)⋮
其中 I ( . ) I(.) I(.)为示性函数,当条件成立时返回1否则返回0。X只能落在K+1个区间中的某一个,对任意X的取值,有 C 0 ( X ) + C 1 ( X ) + … + C K ( X ) = 1 C_{0}(X)+C_{1}(X)+\ldots+C_{K}(X)=1 C0(X)+C1(X)+…+CK(X)=1。
以 C 0 ( X ) , C 1 ( X ) , … , C K ( X ) C_{0}(X), C_{1}(X), \ldots, C_{K}(X) C0(X),C1(X),…,CK(X)为预测变量用最小二乘法来拟合线性模型:
y i = β 0 + β 1 C 1 ( x i ) + β 2 C 2 ( x i ) + … + β K C K ( x i ) + ϵ i y_{i}=\beta_{0}+\beta_{1} C_{1}\left(x_{i}\right)+\beta_{2} C_{2}\left(x_{i}\right)+\ldots+\beta_{K} C_{K}\left(x_{i}\right)+\epsilon_{i} yi=β0+β1C1(xi)+β2C2(xi)+…+βKCK(xi)+ϵi
对于X的一个给定值, C 0 ( X ) , C 1 ( X ) , … , C K ( X ) C_{0}(X), C_{1}(X), \ldots, C_{K}(X) C0(X),C1(X),…,CK(X)中至多只有一项系数非零。当 X < c 1 X<c_{1} X<c1时,每个预测变量都为0,所以 β 0 β_{0} β0为 X < c 1 X<c_{1} X<c1时的Y的平均值。当 c j ≤ X < c j + 1 c_{j} \leq X<c_{j+1} cj≤X<cj+1时,预测值为 β 0 + β j β_{0}+β_{j} β0+βj, β j β_{j} βj可以解释为当 X X X由 X < c 1 X<c_{1} X<c1增至 c j ≤ X < c j + 1 c_{j} \leq X<c_{j+1} cj≤X<cj+1时,响应变量的平均增量。
如果预测变量本身不具有明显的分割点,用分段固定值拟合不太合适。
多项式和阶梯函数回归模型实际上是特殊的基函数方法。基本原理是对变量X的函数或变换 b 1 ( X ) , b 2 ( X ) , … , b K ( X ) b_{1}(X), b_{2}(X), \ldots, b_{K}(X) b1(X),b2(X),…,bK(X)进行建模。用模型 y i = β 0 + β 1 b 1 ( x i ) + β 2 b 2 ( x i ) + β 3 b 3 ( x i ) + … + β K b K ( x i ) + ϵ i y_{i}=\beta_{0}+\beta_{1} b_{1}\left(x_{i}\right)+\beta_{2} b_{2}\left(x_{i}\right)+\beta_{3} b_{3}\left(x_{i}\right)+\ldots+\beta_{K} b_{K}\left(x_{i}\right)+\epsilon_{i} yi=β0+β1b1(xi)+β2b2(xi)+β3b3(xi)+…+βKbK(xi)+ϵi替代线性模型。
可以看做以 b 1 ( x i ) , b 2 ( x i ) , … , b K ( x i ) b_{1}\left(x_{i}\right), b_{2}\left(x_{i}\right), \ldots, b_{K}\left(x_{i}\right) b1(xi),b2(xi),…,bK(xi)为预测变量的标准线性模型,可以使用最小二乘估计。
基函数 b 1 ( ⋅ ) , b 2 ( ⋅ ) , … , b K ( ⋅ ) b_{1}(\cdot), b_{2}(\cdot), \ldots, b_{K}(\cdot) b1(⋅),b2(⋅),…,bK(⋅)的值是给定的(已知的),即在建模之前就选定了基函数的形式。多项式的基函数就是 b j ( x i ) = x i j b_{j}\left(x_{i}\right)=x_{i}^{j} bj(xi)=