机器学习基础：集成学习、支持向量机与模型选择-CSDN博客

本文链接：https://blog.csdn.net/weixin_61223404/article/details/129798313

1.集成学习

集成学习是指通过将多个不同的模型（也可以是同一模型的不同实例）进行组合，来获得比单一模型更好的性能表现的一种机器学习技术。集成学习的基本思想是：通过将多个模型的预测结果进行加权平均或投票等方式进行组合，从而减小预测误差，提高整体预测准确率。

集成学习的优点在于能够降低单个模型的过拟合风险，并提高整体预测的准确性和鲁棒性。集成学习的方法包括但不限于：Bagging（自举汇聚法）、Boosting（提升法）、Stacking（堆叠法）等。其中，Bagging是一种基于自助采样的集成学习方法，通过对训练数据进行有放回的抽样，从而生成多个基分类器，再通过投票或平均等方式进行预测；Boosting是一种序列化的集成学习方法，通过依次训练多个弱分类器，并通过加权组合生成最终的强分类器；Stacking则是一种基于模型组合的集成学习方法，通过将多个不同的基分类器的预测结果作为新的特征输入到元分类器中进行训练和预测。

2.支持向量机

支持向量机（SVM）是一种常用的监督学习算法，主要用于分类和回归问题。SVM的主要思想是在特征空间中找到一个最优超平面，将不同类别的数据分隔开来，同时最大化数据点到超平面的距离（即边际），以达到分类的目的。

3.软间隔

在支持向量机中，软间隔（Soft Margin）是指在求解最优超平面时，允许一定的误差或错误分类的情况，以适应训练集中可能存在的噪声、异常点或非线性数据分布等情况。

与硬间隔（Hard Margin）相对应，硬间隔要求所有训练数据点都必须被正确地分类在超平面的两侧，这在现实情况下并不一定可行，因为可能会存在异常点或噪声数据。

软间隔SVM通过引入松弛变量（slack variable），来容忍一定的误差。松弛变量允许一些样本点位于最优超平面的错误侧，但是对于这些点会给出一个惩罚项，这个惩罚项由软间隔的参数C来控制。C越大，对误分类的惩罚越严格，这会导致最优超平面对噪声或异常点更加敏感，C越小，对误分类的容忍程度越大，这样可能会导致过拟合。

4.核函数

核函数（Kernel Function）是支持向量机（SVM）算法中的一个重要概念，用于将数据从低维空间映射到高维特征空间，从而实现SVM在非线性情况下的分类或回归。简单来说，核函数可以看做是一种计算相似度的方法。

核函数的基本思想是将数据从低维空间映射到高维空间，使得数据在高维空间中呈现出线性可分性。核函数可以将非线性的决策边界转化为线性的决策边界，从而提高SVM的分类或回归准确性。

5.VC维

VC维（Vapnik–Chervonenkis维度）是由Vladimir Vapnik和Alexey Chervonenkis提出的概念，是衡量机器学习算法复杂度的一种方法。VC维描述了一个假设空间（或者说学习算法）能够表示的最大样本集的大小，使得该假设空间能够在这个样本集上实现任意的二元分类。

通常，VC维与假设空间的复杂度成正比，因此，VC维可以用来比较不同假设空间的复杂度，并且可以帮助选择适当的模型，以避免过度拟合或欠拟合。具体来说，当假设空间的VC维较小时，该假设空间更容易过拟合，而当假设空间的VC维较大时，该假设空间更容易欠拟合。

6.生成式模型

生成式模型是一种机器学习模型，它通过建模数据的生成过程来学习数据的分布。与判别式模型不同，生成式模型可以直接从训练数据中生成新的数据样本，而不仅仅是对给定的输入进行分类或回归。这种模型通常利用贝叶斯规则，将输入变量与输出变量的联合分布建模为输入变量和输出变量的条件分布的乘积。

7.判别式模型

判别式模型是一种机器学习模型，它直接建模输入变量与输出变量之间的关系，而不是像生成式模型一样，对数据的生成过程进行建模。判别式模型的目标是学习从输入变量到输出变量的映射函数 $f(X)=Y$，其中 $X$ 是输入变量，$Y$ 是输出变量。

判别式模型通常用于分类和回归问题。在分类问题中，判别式模型学习从输入变量到类标签的映射函数，即 $f(X)=y$，其中 $y$ 表示输入变量 $X$ 的类别标签。在回归问题中，判别式模型学习从输入变量到输出变量的映射函数，即 $f(X)=Y$，其中 $Y$ 表示与输入变量 $X$ 相关的数值型输出。