DataWhale集成学习笔记-task02

最新推荐文章于 2024-08-06 03:38:35 发布

zaprily

最新推荐文章于 2024-08-06 03:38:35 发布

阅读量165

点赞数

分类专栏：实验记录学习打卡文章标签：线性代数机器学习概率论

本文链接：https://blog.csdn.net/zaprily/article/details/119803995

版权

实验记录同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

学习打卡

10 篇文章 0 订阅

订阅专栏

视频：b站

基础查漏补缺

1. 回归模型的度量模型性能的指标：

MSE均方误差： $\text{MSE}(y, \hat{y}) = \frac{1}{n_\text{samples}} \sum_{i=0}^{n_\text{samples} - 1} (y_i - \hat{y}_i)^2.$
MAE平均绝对误差: $\text{MAE}(y, \hat{y}) = \frac{1}{n_{\text{samples}}} \sum_{i=0}^{n_{\text{samples}}-1} \left| y_i - \hat{y}_i \right|$
$R^2$ 决定系数： $R^2(y, \hat{y}) = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$
解释方差得分: $explained\_{}variance(y, \hat{y}) = 1 - \frac{Var\{ y - \hat{y}\}}{Var\{y\}}$

2. 使用均方误差构建损失函数，来求解损失函数最小时的参数w

假设：数据集 $D = \{(x_1,y_1),...,(x_N,y_N) \}$ ， $x_i \in R^p,y_i \in R,i = 1,2,...,N$ ， $X = (x_1,x_2,...,x_N)^T,Y=(y_1,y_2,...,y_N)^T$
假设X和Y之间存在线性关系，模型的具体形式为 $\hat{y}=f(w) =w^Tx$
(a) 最小二乘估计：
我们需要衡量真实值 $y_i$ 与线性回归模型的预测值 $w^Tx_i$ 之间的差距，在这里我们和使用二范数的平方和L(w)来描述这种差距，即：
$\sum\limits_{i=1}^{N}||w^Tx_i-y_i||_2^2=\sum\limits_{i=1}^{N}(w^Tx_i-y_i)^2 = (w^TX^T-Y^T)(w^TX^T-Y^T)^T = w^TX^TXw - 2w^TX^TY+YY^T\\ 因此，我们需要找到使得L(w)最小时对应的参数w，即：\\ \hat{w} = argmin\;L(w)\\ 为了达到求解最小化L(w)问题，我们应用高等数学的知识，使用求导来解决这个问题： \\ \frac{\partial L(w)}{\partial w} = 2X^TXw-2X^TY = 0,因此： \\ \hat{w} = (X^TX)^{-1}X^TY$
(b) 几何解释：
在线性代数中，我们知道两个向量a和b相互垂直可以得出： $a,b> = a.b = a^Tb = 0$ ,而平面X的法向量为Y-Xw，与平面X互相垂直，因此： $X^T(Y-Xw) = 0$ ，即： $w = (X^TX)^{-1}X^TY$
在这里插入图片描述

© 概率视角：
假设噪声 $\epsilon \backsim N(0,\sigma^2),y=f(w)+\epsilon=w^Tx+\epsilon$ ，因此： $y|x_i,w ~ N(w^Tx,\sigma^2)$
我们使用极大似然估计MLE对参数w进行估计：
$log\;P(Y|X;w) = log\;\prod_{i=1}^N P(y_i|x_i;w) = \sum\limits_{i=1}^{N} log\; P(y_i|x_i;w)\\ = \sum\limits_{i=1}^{N}log(\frac{1}{\sqrt{2\pi \sigma}}exp(-\frac{(y_i-w^Tx_i)^2}{2\sigma^2})) = \sum\limits_{i=1}^{N}[log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{1}{2\sigma^2}(y_i-w^Tx_i)^2] \\ argmax_w L(w) = argmin_w[l(w) = \sum\limits_{i = 1}^{N}(y_i-w^Tx_i)^2]\\ 因此：线性回归的最小二乘估计<==>噪声\epsilon\backsim N(0,\sigma^2)的极大似然估计$

3. 线性模型推广

在线性回归中，我们假设因变量与特征之间的关系是线性关系，这样的假设使得模型很简单，但是缺点也是显然的，那就是当数据存在非线性关系时，我们使用线性回归模型进行预测会导致预测性能极其低下，因为模型的形式本身是线性的，无法表达数据中的非线性关系。我们一个很自然的想法就是去推广线性回归模型，使得推广后的模型更能表达非线性的关系。

(a) 多项式回归：
为了体现因变量和特征的非线性关系，一个很自然而然的想法就是将标准的线性回归模型：
$y_i = w_0 + w_1x_i + \epsilon_i$
换成一个多项式函数：
$y_i = w_0 + w_1x_i + w_2x_i^2 + ...+w_dx_i^d + \epsilon$
对于多项式的阶数d不能取过大，一般不大于3或者4，因为d越大，多项式曲线就会越光滑，在X的边界处有异常的波动。
(b) 广义可加模型(GAM)：
广义可加模型GAM实际上是线性模型推广至非线性模型的一个框架，在这个框架中，每一个变量都用一个非线性函数来代替，但是模型本身保持整体可加性。GAM模型不仅仅可以用在线性回归的推广，还可以将线性分类模型进行推广。具体的推广形式是：
标准的线性回归模型：
$y_i = w_0 + w_1x_{i1} +...+w_px_{ip} + \epsilon_i$
GAM模型框架：
$y_i = w_0 + \sum\limits_{j=1}^{p}f_{j}(x_{ij}) + \epsilon_i$
GAM模型的优点与不足：
- 优点：简单容易操作，能够很自然地推广线性回归模型至非线性模型，使得模型的预测精度有所上升；由于模型本身是可加的，因此GAM还是能像线性回归模型一样把其他因素控制不变的情况下单独对某个变量进行推断，极大地保留了线性回归的易于推断的性质。
- 缺点：GAM模型会经常忽略一些有意义的交互作用，比如某两个特征共同影响因变量，不过GAM还是能像线性回归一样加入交互项 $x^{(i)} \times x^{(j)}$ 的形式进行建模；但是GAM模型本质上还是一个可加模型，如果我们能摆脱可加性模型形式，可能还会提升模型预测精度，详情请看后面的算法。
（被推荐书：回归分析，详细）

回归树

基于树的回归方法主要是依据分层和分割的方式将特征空间划分为一系列简单的区域。对某个给定的待预测的自变量，用他所属区域中训练集的平均数或者众数对其进行预测。由于划分特征空间的分裂规则可以用树的形式进行概括，因此这类方法称为决策树方法。决策树由结点(node)和有向边(diredcted edge)组成。结点有两种类型：内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性，叶结点表示一个类别或者某个值。区域 $R_1,R_2$ 等称为叶节点，将特征空间分开的点为内部节点。
右图为使用回归树模型划分的正确示意图在这里插入图片描述
建立回归树的过程大致可以分为以下两步：
- 将自变量的特征空间(即 $x^{(1)},x^{(2)},x^{(3)},...,x^{(p)}$ )的可能取值构成的集合分割成J个互不重叠的区域 $R_1,R_2,...,R_j$ 。
- 对落入区域 $R_j$ 的每个观测值作相同的预测，预测值等于 $R_j$ 上训练集的因变量的简单算术平均。
具体来说，就是：
a. 选择最优切分特征j以及该特征上的最优点s：
遍历特征j以及固定j后遍历切分点s，选择使得下式最小的(j,s) $min_{j,s}[min_{c_1}\sum\limits_{x_i\in R_1(j,s)}(y_i-c_1)^2 + min_{c_2}\sum\limits_{x_i\in R_2(j,s)}(y_i-c_2)^2 ]$
b. 按照(j,s)分裂特征空间： $R_1(j,s) = \{x|x^{j} \le s \}和R_2(j,s) = \{x|x^{j} > s \},\hat{c}_m = \frac{1}{N_m}\sum\limits_{x \in R_m(j,s)}y_i,\;m=1,2$
c. 继续调用步骤1，2直到满足停止条件，就是每个区域的样本数小于等于5。
d. 将特征空间划分为J个不同的区域，生成回归树： $\sum\limits_{m=1}^{J}\hat{c}_mI(x \in R_m)$
回归树与线性模型的比较：
线性模型的模型形式与树模型的模型形式有着本质的区别，具体而言，线性回归对模型形式做了如下假定： $w_0 + \sum\limits_{j=1}^{p}w_jx^{(j)}$ ，而回归树则是 $\sum\limits_{m=1}^{J}\hat{c}_mI(x \in R_m)$ 。那问题来了，哪种模型更优呢？这个要视具体情况而言，如果特征变量与因变量的关系能很好的用线性关系来表达，那么线性回归通常有着不错的预测效果，拟合效果则优于不能揭示线性结构的回归树。反之，如果特征变量与因变量的关系呈现高度复杂的非线性，那么树方法比传统方法更优。在这里插入图片描述

树模型的优缺点：
树模型的解释性强，在解释性方面可能比线性回归还要方便。
树模型更接近人的决策方式。
树模型可以用图来表示，非专业人士也可以轻松解读。
树模型可以直接做定性的特征而不需要像线性回归一样哑元化（和热编码类似具体可见哑元化和独热编码）。
树模型能很好处理缺失值和异常值，对异常值不敏感，但是这个对线性模型来说却是致命的。
树模型的预测准确性一般无法达到其他回归模型的水平，但是改进的方法很多。（集成学习改进树模型）

约束优化

KKT条件

约束优化问题 (P )：
$\;\;\;min f(x)$
$s.t.\;\;\;g_i(x) \le 0,\; i=1,2,...,m;\;\;\;$
$h_j(x) = 0,\; j=1,2,...,l;\;\;\;$ # $g_i(x)，h_j(x)$ 作为条件的意思
我们假设 $x^*$ 为满足以上条件的局部最优解， $p^* = f(x^*)$ ，我们的目的就是要找到 $x^*$ 与 $p^*$ ，满足不等式和等式约束的x集合成为可行域，记作S。
- KKT条件(最优解的一阶必要条件)
  在这个例子中，我们考虑：( $x^*$ 为我们的最优解)
  $minf(x)\\ s.t.\;g_1(x) \le 0,\;x \in R^n\\ \;\;\;g_2(x) \le 0\\ \;\;\;g_3(x) \le 0$
  我们可以看到： $-\nabla f(x^*)$ 可以由 $\nabla g_1(x^*)$ 与 $\nabla g_2(x^*)$ 线性表出，因此有： $-\nabla f(x^*) = \lambda_1 \nabla g_1(x^*) + \lambda_2 \nabla g_2(x^*)$ ，其中 $\lambda_1,\lambda_2 \ge 0$ ，即：
  $\nabla f(x^*) + \lambda_1 \nabla g_1(x^*) + \lambda_2 \nabla g_2(x^*) = 0,\;\;\;其中\lambda_1,\lambda_2 \ge 0$
  我们把没有起作用的约束 $g_3(x)$ 也放到式子里面去，目的也就是为了书写方便，即要求：
  $\nabla f(x^*) + \lambda_1 \nabla g_1(x^*) + \lambda_2 \nabla g_2(x^*) + \lambda_3 \nabla g_3(x^*)= 0,\;\;\;其中\lambda_1,\lambda_2 \ge 0,\lambda_3 = 0$
  由于点 $x^*$ 位于方程 $g_1(x)=0$ 与 $g_2(x)=0$ 上，因此： $\lambda_1 g_1(x^*) = 0,\lambda_2 g_2(x^*) = 0 , \lambda_3 g_3(x^*)= 0$
  
  因此，KKT条件就是：假设 $x^*$ 为最优化问题§的局部最优解，且 $x^*$ 在某个适当的条件下 ,有：
  $\nabla f(x^*) + \sum\limits_{i=1}^{m}\lambda_i \nabla g(x^*) + \sum\limits_{j=1}^{l}\mu_j \nabla h_j(x^*) = 0(对偶条件)\\ \lambda_i \ge 0,\;i = 1,2,...,m(对偶条件)\\ g_i(x^*) \le 0(原问题条件)\\ h_j(x^*) = 0(原问题条件)\\ \lambda_i g(x^*) = 0(互补松弛定理)$

对偶理论：

为什么要引入对偶问题呢？是因为原问题与对偶问题就像是一个问题两个角度去看，如利润最大与成本最低等。有时侯原问题上难以解决，但是在对偶问题上就会变得很简单。再者，任何一个原问题在变成对偶问题后都会变成一个凸优化的问题，这点我们后面会有介绍。下面我们来引入对偶问题：
首先，我们的原问题( P )是：
$\\ s.t.\;\;\;g_i(x) \le 0,\; i=1,2,...,m\\ \;\;\;\;\; h_j(x) = 0,\; j=1,2,...,l$
引入拉格朗日函数： $L(x,\lambda,\mu) = f(x) + \sum\limits_{i=1}^{m}\lambda_i g_i(x) + \sum\limits_{j=1}^{l}\mu_j h_j(x)$
拉格朗日对偶函数：
$d(\lambda,\mu) = min_{x\in X}\{ f(x) + \sum\limits_{i=1}^{m}\lambda_i g_i(x) + \sum\limits_{j=1}^{l}\mu_j h_j(x)\} ,其中X为满足条件的x变量\\ \le min_{x\in S}\{ f(x) + \sum\limits_{i=1}^{m}\lambda_i g_i(x) + \sum\limits_{j=1}^{l}\mu_j h_j(x) \},由于g_i(x) \le 0,h_j(x) = 0,\lambda_i \ge 0 ,其中S为可行域\\ \le min_{x\in S}\{f(x) \}$
因此：拉格朗日对偶函数 $d(\lambda,\mu)$ 是原问题最优解的函数值 $p^*$ 的下界，即每个不同的 $\lambda$ 与 $\mu$ 确定的 $d(\lambda,\mu)$ 都是 $p^*$ 的下界，但是我们希望下界越大越好，因为越大就更能接近真实的 $p^*$ 。因此：
拉格朗日对偶问题(D)转化为：
$max_{\lambda,\mu}d(\lambda,\mu)\\ s.t. \lambda_i \ge 0,i = 1,2,...,m\\ 也就是：\\ max_{\lambda \ge 0,\mu}\;min_{x \in S} L(x,\lambda,\mu)$
我们可以观察到，对偶问题是关于 $\lambda$ 和 $\mu$ 的线性函数，因此对偶问题是一个凸优化问题，凸优化问题在最优化理论较为简单。
弱对偶定理：对偶问题(D)的最优解 $D^*$ 一定小于原问题最优解 $P^*$ ，这点在刚刚的讨论得到了充分的证明，一定成立。
强对偶定理：对偶问题(D)的最优解 $D^*$ 在一定的条件下等于原问题最优解 $P^*$ ，条件非常多样化且不是唯一的，也就是说这是个开放性的问题，在这里我给出一个最简单的条件，即： $f (x)$ 与 $g_i(x)$ 为凸函数， $h_j(x)$ 为线性函数，X是凸集， $x^*$ 满足KKT条件，那么 $D^* = P^*$ 。

支持向量回归

支持向量回归（SVR）的详细介绍以及推导算法
博客讲的很清楚，不再赘述

作业

详细叙述线性回归模型的最小二乘法表达
极大似然估计和最小二乘法之间区别和联系
这两个在 2. 使用均方误差构建损失函数，来求解损失函数最小时的参数w 中有详细描述
为什么多项式回归在实际问题中表现不是很好
对于多项式的阶数d不能取过大，一般不大于3或者4，因为d越大，多项式曲线就会越光滑，在X的边界处有异常的波动。
决策树和线性模型之间的联系和区别
两个假定不同 $w_0 + \sum\limits_{j=1}^{p}w_jx^{(j)}$ ，而回归树则是 $\sum\limits_{m=1}^{J}\hat{c}_mI(x \in R_m)$ ，在图像上的呈现也不同。
回归树模型的参数
sklearn参数
sklearn.tree.DecisionTreeRegressor(*, criterion=‘mse’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, ccp_alpha=0.0)
criterion：{“ mse”，“ friedman_mse”，“ mae”}，默认=“ mse”。衡量分割标准的函数，mse是均方误差，相当于利用每个terminal node的均值最小化L2 损失函数。
splitter：分割方式
max_depth：树的最大深度。
min_samples_split：拆分内部节点所需的最少样本数，默认是2。
min_samples_leaf：在叶节点处需要的最小样本数。默认是1。
min_weight_fraction_leaf：在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。默认是0。
什么是KTT条件
为什么要引入对偶问题
这两个不是很理解，有机会再多理解理解
回归模型python numpy实践，手动计算

import numpy as np
from sklearn import datasets
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据
boston = datasets.load_boston()     # 返回一个类似于字典的类
X = boston.data
y = boston.target
features = boston.feature_names
boston_data = pd.DataFrame(X,columns=features)
boston_data["Price"] = y
boston_data.head()
# 手动计算：
# 增加b
X1=np.column_stack((X,np.ones(X.shape[0])))
# 求系数ｗ
w=np.dot(np.dot(np.linalg.inv(np.dot(X1.T,X1)),X1.T),y)
# 查看用系数得到的结果
y1= np.dot(w,X1.T)
# 画图查看
# 画图参考：https://zhuanlan.zhihu.com/p/139052035
fig=plt.figure(num=1,figsize=(8,6),dpi=100)
ax1=fig.add_subplot(221)
ax1.scatter(y,y1,s=10)
x=np.arange(0,50,1)
ax1.plot(x,x,"r")

在这里插入图片描述
sklearn调用计算

from sklearn import linear_model      # 引入线性回归方法
lin_reg = linear_model.LinearRegression()       # 创建线性回归的类
lin_reg.fit(X,y)        # 输入特征X和因变量y进行训练
print("模型系数：",lin_reg.coef_)             # 输出模型的系数
print("模型得分：",lin_reg.score(X,y))    # 输出模型的决定系数R^2

系数结果比较

手动计算	sklearn
-0.108011	-0.108011
0.046420	0.046420
0.020559	0.020559
2.686734	2.686734
-17.766611	-17.766611
3.809865	3.809865
0.000692	0.000692
-1.475567	-1.475567
0.306049	0.306049
-0.012335	-0.012335
-0.952747	-0.952747
0.009312	0.009312
-0.524758	-0.524758
3.64594884e+01	未显示