集成学习（上）三之优化模型基础

最新推荐文章于 2021-03-22 10:53:03 发布

zou_gr

最新推荐文章于 2021-03-22 10:53:03 发布

阅读量349

点赞数

分类专栏：机器学习集成学习文章标签：算法机器学习

本文链接：https://blog.csdn.net/zou_gr/article/details/115051968

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

集成学习

7 篇文章 1 订阅

订阅专栏

背景

在前面我们已经基本了解了机器学习项目的选择模型大致流程，我们进一步讨论模型的优化。

优化模型基础

（1）训练均方误差与测试均方误差：
原文：在回归中，我们最常用的评价指标为均方误差，即： $\frac{1}{N}\sum\limits_{i=1}^{N}(y_i -\hat{ f}(x_i))^2$ ，其中 $\hat{ f}(x_i)$ 是样本 $x_i$ 应用建立的模型 $\hat{f}$ 预测的结果。如果我们所用的数据是训练集上的数据，那么这个误差为训练均方误差，如果我们使用测试集的数据计算的均方误差，我们称为测试均方误差。一般而言，我们并不关心模型在训练集上的训练均方误差，我们关心的是模型面对未知的样本集，即测试集上的测试误差，我们的目标是使得我们建立的模型在测试集上的测试误差最小。那我们如何选择一个测试误差最小的模型呢？这是个棘手的问题，因为在模型建立阶段，我们是不能得到测试数据的，比如：我们在模型未上线之前是不能拿到未知且真实的测试数据来验证我们的模型的。在这种情况下，为了简便起见，一些观点认为通过训练误差最小化来选择模型也是可行的。这种观点表面看上去是可行的，但是存在一个致命的缺点，那就是：一个模型的训练均方误差最小时，不能保证测试均方误差同时也很小。对于这种想法构造的模型，一般在训练误差达到最小时，测试均方误差一般很大！
通俗来说，这段文字表达的意思就是机器学习里的欠拟合和过拟合的平衡问题，就是我们不能一味追求在训练集的高准确率，而忽视了关键测试集的准确率。举个简单的例子，教我们机器学习的是陈老师，结课考试出题的确实梅老师，梅老师不知道我们具体学过那些内容，结果瞎出题，搞的我们大部分人不及格。
（2）偏差-方差的权衡：

什么是方差？
用不同的数据集去估计时，估计函数的改变量。举个例子，我们想要建立一个线性回归模型，可以通过输入中国人身高去预测我们的体重。但是显然我们没有办法把全中国13亿人做一次人口普查，拿到13亿人的身高体重去建立模型。我们能做的就是从13亿中抽1000个样本进行建模，我们对这个抽样的过程重复100遍，就会得到100个1000人的样本集。我们使用线性回归模型估计参数就能得到100个线性回归模型。由于样本抽取具有随机性，我们得到的100个模型不可能参数完全一样，那么这100个模型之间的差异就叫做方差。
什么是偏差？
为了选择一个简单的模型去估计真实函数所带入的误差。假如真实
的数据X与Y的关系是二次关系，但是我们选择了线性模型进行建模，那由于模型的复杂度引起的这种误差我们称为偏差，它的构成时复杂的。
权衡
总而言之，增加模型的复杂度，会增加模型的方差，但是会减少模型的偏差，我们要找到一个方差–偏差的权衡，使得测试的误差最小。

（3）线性回归的优化策略

训练误差修正：
根据模型特点模型越复杂，训练误差越小，测试误差先减后增。加入惩罚项，满足要求的惩罚项有AIC赤池信息量准则、BIC贝叶斯信息量准则等。
最优子集选择：
最优子集就是在特征中尝试所有的组合，找到测试误差最小的那组特征并应用。
向前逐步选择：
因为最优子集在大数据的背景下计算量很大，所以诞生了为了优化计算的向前逐步选择。通俗来说，向前逐步，就是一步步的往模型添加特征，每次添加一个，重复到所有特征，再选择测试误差最低的特征组合。
压缩估计：
压缩估计有非常出名的岭回归和lasso回归，其实两个都是在模型添加惩罚项，只不过添加的惩罚项各有特点，导致模型的预测也是各有特点。
原文：
岭回归(L2正则化的例子)：
在线性回归中，我们的损失函数为 $\sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2$ ，我们在线性回归的损失函数的基础上添加对系数的约束或者惩罚，即：
$\sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}w_j^2,\;\;其中，\lambda \ge 0\\ \hat{w} = (X^TX + \lambda I)^{-1}X^TY$
调节参数 $\lambda$ 的大小是影响压缩估计的关键， $\lambda$ 越大，惩罚的力度越大，系数则越趋近于0，反之，选择合适的 $\lambda$ 对模型精度来说十分重要。岭回归通过牺牲线性回归的无偏性降低方差，有可能使得模型整体的测试误差较小，提高模型的泛化能力。
Lasso回归(L1正则化的例子)：
岭回归的一个很显著的特点是：将模型的系数往零的方向压缩，但是岭回归的系数只能呢个趋于0但无法等于0，换句话说，就是无法做特征选择。能否使用压缩估计的思想做到像特征最优子集选择那样提取出重要的特征呢？答案是肯定的！我们只需要对岭回归的优化函数做小小的调整就行了，我们使用系数向量的L1范数替换岭回归中的L2范数：
$\sum\limits_{i=1}^{N}(y_i-w_0-\sum\limits_{j=1}^{p}w_jx_{ij})^2 + \lambda\sum\limits_{j=1}^{p}|w_j|,\;\;其中，\lambda \ge 0$
为什么Losso能做到特征选择而岭回归却不能做到呢？(如图：左边为lasso，右边为岭回归)

椭圆形曲线为RSS等高线，菱形和圆形区域分别代表了L1和L2约束，Lsaao回归和岭回归都是在约束下的回归，因此最优的参数为椭圆形曲线与菱形和圆形区域相切的点。但是Lasso回归的约束在每个坐标轴上都有拐角，因此当RSS曲线与坐标轴相交时恰好回归系数中的某一个为0，这样就实现了特征提取。反观岭回归的约束是一个圆域，没有尖点，因此与RSS曲线相交的地方一般不会出现在坐标轴上，因此无法让某个特征的系数为0，因此无法做到特征提取。
- 降维：
  原文：
  到目前为止，我们所讨论的方法对方差的控制有两种方式：一种是使用原始变量的子集，另一种是将变量系数压缩至零。但是这些方法都是基于原始特征 𝑥1,…,𝑥𝑝 得到的，现在我们探讨一类新的方法：将原始的特征空间投影到一个低维的空间实现变量的数量变少，如：将二维的平面投影至一维空间。机器学习领域中所谓的降维就是指采用某种映射方法，将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y，其中x是原始数据点的表达，目前最多使用向量表达形式。 y是数据点映射后的低维向量表达，通常y的维度小于x的维度（当然提高维度也是可以的）。f可能是显式的或隐式的、线性的或非线性的。目前大部分降维算法处理向量表达的数据，也有一些降维算法处理高阶张量表达的数据。之所以使用降维后的数据表示是因为在原始的高维空间中，包含有冗余信息以及噪音信息，在实际应用例如图像识别中造成了误差，降低了准确率；而通过降维,我们希望减少冗余信息所造成的误差,提高识别（或其他应用）的精度。又或者希望通过降维算法来寻找数据内部的本质结构特征。在很多算法中，降维算法成为了数据预处理的一部分，如PCA。事实上，有一些算法如果没有降维预处理，其实是很难得到很好的效果的。 (摘自：rosenor1博客)
  对于降维的目的和效果，我是不同意上述观点的，在我看来，在一般的项目中，降维就是带来原始有用信息的损耗，而且降低准确率。并且，在pca降维方法下，其实说来说去无非都还是线性的变换，对于复杂的数据而言，是很无力的。当然，他也有好处，在我看来他唯一的好处就是更好的解释变量，牺牲准确率来降低整体的模型的复杂度。