统计学习导论(七)非线性模型——学习笔记

1. 多项式回归 Polynomial Regression

对线性模型的推广:以预测变量的幂作为新的预测变量来代替原始变量。
将标准线性模型 y i = β 0 + β 1 x i + ϵ i y_{i}=\beta_{0}+\beta_{1} x_{i}+\epsilon_{i} yi=β0+β1xi+ϵi换成一个多项式函数
y i = β 0 + β 1 x i + β 2 x i 2 + β 3 x i 3 + … + β d x i d + ϵ i y_{i}=\beta_{0}+\beta_{1} x_{i}+\beta_{2} x_{i}^{2}+\beta_{3} x_{i}^{3}+\ldots+\beta_{d} x_{i}^{d}+\epsilon_{i} yi=β0+β1xi+β2xi2+β3xi3++βdxid+ϵi
对于阶数d较大的模型,多项式回归将呈现明显的非线性曲线。
多项式回归本质上可视为标准线性模型,可以用最小二乘回归的方法求解,d不宜过大(<3、4)。d过大,多项式曲线就会越光滑甚至在X变量定义域的边界外呈现异样的形状。

2. 阶梯函数 Step Functions

“其拟合是将某个预测变量的取值空间切割成K个不同区域,以此来生成一个新的定性变量,分段拟合一个常量函数。”
在线性模型中使用特征变量的多项式形式作为预测变量得到了在X取值空间全局都非线性的拟合函数。如果不希望得到全局的模型,可以使用阶梯函数拟合。
把X的取值范围分成一些区间,每个区间拟合一个不同的常数。相当于将一个连续变量转换成一个有序的分类变量。
具体过程:
首先在X取值空间上创建分割点c1, c2, …, ck,然后构造K+1个新变量如下:
C 0 ( X ) = I ( X < c 1 ) C 1 ( X ) = I ( c 1 ≤ X < c 2 ) , C 2 ( X ) = I ( c 2 ≤ X < c 3 ) , ⋮ C K − 1 ( X ) = I ( c K − 1 ≤ X < c K ) , C K ( X ) = I ( c K ≤ X ) \begin{aligned} &C_{0}(X)=I\left(X<c_{1}\right) \\ &C_{1}(X)=I\left(c_{1} \leq X<c_{2}\right), \\ &C_{2}(X)=I\left(c_{2} \leq X<c_{3}\right), \\ & & \vdots \\ &C_{K-1}(X)=I\left(c_{K-1} \leq X<c_{K}\right), \\ &C_{K}(X)=I\left(c_{K} \leq X\right) \end{aligned} C0(X)=I(X<c1)C1(X)=I(c1X<c2),C2(X)=I(c2X<c3),CK1(X)=I(cK1X<cK),CK(X)=I(cKX)
其中 I ( . ) I(.) I(.)为示性函数,当条件成立时返回1否则返回0。X只能落在K+1个区间中的某一个,对任意X的取值,有 C 0 ( X ) + C 1 ( X ) + … + C K ( X ) = 1 C_{0}(X)+C_{1}(X)+\ldots+C_{K}(X)=1 C0(X)+C1(X)++CK(X)=1
C 0 ( X ) , C 1 ( X ) , … , C K ( X ) C_{0}(X), C_{1}(X), \ldots, C_{K}(X) C0(X),C1(X),,CK(X)为预测变量用最小二乘法来拟合线性模型:
y i = β 0 + β 1 C 1 ( x i ) + β 2 C 2 ( x i ) + … + β K C K ( x i ) + ϵ i y_{i}=\beta_{0}+\beta_{1} C_{1}\left(x_{i}\right)+\beta_{2} C_{2}\left(x_{i}\right)+\ldots+\beta_{K} C_{K}\left(x_{i}\right)+\epsilon_{i} yi=β0+β1C1(xi)+β2C2(xi)++βKCK(xi)+ϵi
对于X的一个给定值, C 0 ( X ) , C 1 ( X ) , … , C K ( X ) C_{0}(X), C_{1}(X), \ldots, C_{K}(X) C0(X),C1(X),,CK(X)中至多只有一项系数非零。当 X < c 1 X<c_{1} X<c1时,每个预测变量都为0,所以 β 0 β_{0} β0 X < c 1 X<c_{1} X<c1时的Y的平均值。当 c j ≤ X < c j + 1 c_{j} \leq X<c_{j+1} cjX<cj+1时,预测值为 β 0 + β j β_{0}+β_{j} β0+βj β j β_{j} βj可以解释为当 X X X X < c 1 X<c_{1} X<c1增至 c j ≤ X < c j + 1 c_{j} \leq X<c_{j+1} cjX<cj+1时,响应变量的平均增量。

如果预测变量本身不具有明显的分割点,用分段固定值拟合不太合适。

多项式和阶梯函数回归模型实际上是特殊的基函数方法。基本原理是对变量X的函数或变换 b 1 ( X ) , b 2 ( X ) , … , b K ( X ) b_{1}(X), b_{2}(X), \ldots, b_{K}(X) b1(X),b2(X),,bK(X)进行建模。用模型 y i = β 0 + β 1 b 1 ( x i ) + β 2 b 2 ( x i ) + β 3 b 3 ( x i ) + … + β K b K ( x i ) + ϵ i y_{i}=\beta_{0}+\beta_{1} b_{1}\left(x_{i}\right)+\beta_{2} b_{2}\left(x_{i}\right)+\beta_{3} b_{3}\left(x_{i}\right)+\ldots+\beta_{K} b_{K}\left(x_{i}\right)+\epsilon_{i} yi=β0+β1b1(xi)+β2b2(xi)+β3b3(xi)++βKbK(xi)+ϵi替代线性模型。

可以看做以 b 1 ( x i ) , b 2 ( x i ) , … , b K ( x i ) b_{1}\left(x_{i}\right), b_{2}\left(x_{i}\right), \ldots, b_{K}\left(x_{i}\right) b1(xi),b2(xi),,bK(xi)为预测变量的标准线性模型,可以使用最小二乘估计。

基函数 b 1 ( ⋅ ) , b 2 ( ⋅ ) , … , b K ( ⋅ ) b_{1}(\cdot), b_{2}(\cdot), \ldots, b_{K}(\cdot) b1(),b2(),,bK()的值是给定的(已知的),即在建模之前就选定了基函数的形式。多项式的基函数就是 b j ( x i ) = x i j b_{j}\left(x_{i}\right)=x_{i}^{j} bj(xi)=

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸭鸭鸭鸭鸭鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值