集成学习（上）偏差与方差理论

最新推荐文章于 2023-03-13 15:02:00 发布

yutc0202

最新推荐文章于 2023-03-13 15:02:00 发布

阅读量485

点赞数 1

文章标签： python 机器学习

本文链接：https://blog.csdn.net/yutc0202/article/details/115104524

版权

1.优化基础模型

1.1 训练均方误差与测试均方误差：

最常用的评价指标为均方误差，即： $\frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2$ ，其中 $\hat{ f}(x_i)$ 是样本 $x_i$ 应用- 建立的模型 $\hat{f}$ 预测的结果。
如果所用的数据是训练集上的数据，那么这个误差为训练均方误差；如果使用测试集的数据计算均方误差，那么则称为测试均方误差。
一个模型的训练均方误差最小时，不能保证测试均方误差同时也很小。对于这种想法构造的模型，一般在训练误差达到
最小时，测试均方误差一般很大！

上右图所示：模型在训练误差很小，但是测试均方误差很大时，我们称这种情况叫模型的过拟合。

1.2 偏差-方差的权衡：

$E\left(y_{0}-\hat{f}\left(x_{0}\right)\right)^{2}=\operatorname{Var}\left(\hat{f}\left(x_{0}\right)\right)+\left[\operatorname{Bias}\left(\hat{f}\left(x_{0}\right)\right)\right]^{2}+\operatorname{Var}(\varepsilon)$

测试均方误差的期望值可以分解为 $\hat{f}(x_0)$ 的方差、 $\hat{f}(x_0)$ 的偏差平方和误差项 $\epsilon$ 的方差。
测试均方误差的期望不可能会低于误差的方差，因此我们称 $\operatorname{Var}(\varepsilon)$ 为建模任务的难度，这个量在我们的任务确定后是无法改变的，也叫做不可约误差。
一般来说，模型的复杂度越高，f的方差就会越大
谓模型的方差就是：用不同的数据集去估计 $f$ 时，估计函数的改变量。
eg：通过输入中国人身高去预测我们的体重。从13亿中抽1000个样本进行建模，我们对这个抽样的过程重复100遍，就会得到100个1000人的样本集。

我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性，我们得到的100个模型不可能参数完全一样，那么这100个模型之间的差异就叫做方差。显然，我们希望得到一个稳定的模型，也就是在不同的样本集估计的模型都不会相差太大，即要求f的方差越小越好。

偏差度量的是单个模型的学习能力，而方差度量的是同一个模型在不同数据集上的稳定性。
目标：偏差和方差找权衡都需要小，才能使得测试均方差最小。

1.3 特征提取

需要对测试误差进行估计，估计的方式有两种：训练误差修正与交叉验证。

1.3.1 训练误差修正

前面的讨论我们已经知道，模型越复杂，训练误差越小，测试误差先减后增。

构造一个特征较多的模型使其过拟合（此时训练误差很小而测试误差很大）。
加入关于特征个数的惩罚。（当我们的训练误差随着特征个数的增加而减少时，惩罚项因为
特征数量的增加而增大，抑制了训练误差随着特征个数的增加而无休止地减小）。
数学量：
$C_p = \frac{1}{N}(RSS + 2d\hat{\sigma}^2)$ ，其中d为模型特征个数， $\sum\limits_{i=1}^{N}(y_i-\hat{f}(x_i))^2$ ， $\hat{\sigma}^2$ 为模型预测误差的方差的估计值，即残差的方差。
AIC赤池信息量准则： $\frac{1}{d\hat{\sigma}^2}(RSS + 2d\hat{\sigma}^2)$
BIC贝叶斯信息量准则： $\frac{1}{n}(RSS + log(n)d\hat{\sigma}^2)$

1.3.2 交叉验证（对测试误差的直接估计）

优势：能够给出测试误差的一个直接估计
K折交叉验证：我们把训练样本分成K等分，然后用K-1个样本集当做训练集，剩下的一份样本集为验证集去估计由K-1个样本集得到的模型的精度，这个过程重复K次取平均值得到测试误差的一个估计 $CV_{(K)} = \frac{1}{K}\sum\limits_{i=1}^{K}MSE_i$ 。
5折交叉验证如下图：（蓝色的是训练集，黄色的是验证集）
最优子集选择、向前逐步选择：通过计算RSS进行迭代，每次选择RSS值最小的模型，最后选择测试误差最小的模型作为最优模型

1.4 压缩估计(正则化)

对回归的系数进行约束或者加罚的技巧对p个特征的模型进行拟合，显著降低模型方差，这样也会提高模型的拟合效果。将回归系数往零的方向压缩，这也就是为什么叫压缩估计的原因了。

岭回归(L2正则化的例子)：
在线性回归中，我们的损失函数为 $\sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2$ ，我们在线性回归的损失函数的基础上添加对系数的约束或者惩罚，即：
$\sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}w_j^2,\;\;其中，\lambda \ge 0\\ \hat{w} = (X^TX + \lambda I)^{-1}X^TY$
调节参数 $\lambda$ 的大小是影响压缩估计的关键， $\lambda$ 越大，惩罚的力度越大，系数则越趋近于0，反之，选择合适的 $\lambda$ 对模型精度来说十分重要。岭回归通过牺牲线性回归的无偏性降低方差，有可能使得模型整体的测试误差较小，提高模型的泛化能力。
- Lasso回归(L1正则化的例子)：使用系数向量的L1范数替换岭回归中的L2范数

1.5 降维

主成分分析(PCA)：
通过最大投影方差将原始空间进行重构，即由特征相关重构为特征无关，即落在某个方向上的点(投影)的方差最大

示例运行

# 引入相关科学计算包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use("ggplot") 
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

from sklearn import datasets
boston = datasets.load_boston() # 返回一个类似于字典的类
X = boston.data
y = boston.target
features = boston.feature_names
boston_data = pd.DataFrame(X,columns=features)
boston_data["Price"] = y
boston_data.head()

在这里插入图片描述

向前逐步回归

#定义向前逐步回归函数
def forward_select(data,target):
    variate=set(data.columns)  #将字段名转换成字典类型
    variate.remove(target)  #去掉因变量的字段名
    selected=[]
    current_score,best_new_score=float('inf'),float('inf')  #目前的分数和最好分数初始值都为无穷大（因为AIC越小越好）
    #循环筛选变量
    while variate:
        aic_with_variate=[]
        for candidate in variate:  #逐个遍历自变量
            formula="{}~{}".format(target,"+".join(selected+[candidate]))  #将自变量名连接起来
            aic=ols(formula=formula,data=data).fit().aic  #利用ols训练模型得出aic值
            aic_with_variate.append((aic,candidate))  #将第每一次的aic值放进空列表
        aic_with_variate.sort(reverse=True)  #降序排序aic值
        best_new_score,best_candidate=aic_with_variate.pop()  #最好的aic值等于删除列表的最后一个值，以及最好的自变量等于列表最后一个自变量
        if current_score>best_new_score:  #如果目前的aic值大于最好的aic值
            variate.remove(best_candidate)  #移除加进来的变量名，即第二次循环时，不考虑此自变量了
            selected.append(best_candidate)  #将此自变量作为加进模型中的自变量
            current_score=best_new_score  #最新的分数等于最好的分数
            print("aic is {},continuing!".format(current_score))  #输出最小的aic值
        else:
            print("for selection over!")
            break
    formula="{}~{}".format(target,"+".join(selected))  #最终的模型式子
    print("final formula is {}".format(formula))
    model=ols(formula=formula,data=data).fit()
    return(model)

import statsmodels.api as sm #最小二乘
from statsmodels.formula.api import ols #加载ols模型
forward_select(data=boston_data,target="Price")

在这里插入图片描述

lm=ols("Price~LSTAT+RM+PTRATIO+DIS+NOX+CHAS+B+ZN+CRIM+RAD+TAX",data=boston_data).fit()
lm.summary()

在这里插入图片描述

岭回归

from sklearn import linear_model
reg_rid = linear_model.Ridge(alpha=.5)
reg_rid.fit(X,y)
reg_rid.score(X,y)

0.739957023371629

Lasso回归

from sklearn import linear_model
reg_lasso = linear_model.Lasso(alpha = 0.5)
reg_lasso.fit(X,y)
reg_lasso.score(X,y)

0.7140164719858566

yutc0202

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫