AI作业2_监督学习

最新推荐文章于 2024-09-27 10:58:53 发布

アルべルト

最新推荐文章于 2024-09-27 10:58:53 发布

阅读量146

点赞数

文章标签：人工智能学习机器学习 Powered by 金山文档

本文链接：https://blog.csdn.net/zzy411063207/article/details/129675423

版权

本文介绍了机器学习中防止过拟合的重要方法——结构风险最小化（SRM）和正则化。SRM通过在模型复杂度和训练数据拟合度之间寻找平衡，正则化通过向损失函数添加惩罚项来限制模型复杂度，两者都旨在提高模型在新数据上的泛化能力。同时，文章还讲解了线性回归、逻辑斯蒂回归、Sigmoid与SoftMax函数、决策树、信息熵、条件熵、信息增益以及概率近似正确（PAC）理论等相关概念。

摘要由CSDN通过智能技术生成

1.结构风险最小化

结构风险最小化（Structural Risk Minimization，简称SRM）是一种在机器学习中用来防止过拟合的方法。

在机器学习中，我们使用训练数据来训练一个模型，目标是让该模型能够在未知数据上进行准确的预测。过拟合是指模型在训练数据上表现良好，但在未知数据上表现不佳的情况，这通常是由于模型复杂度过高而导致的。过拟合的模型可能过于记忆训练数据中的细节，而无法推广到新的数据上。

SRM 通过在模型复杂度和数据拟合能力之间寻找一个平衡点来解决过拟合问题。具体来说，SRM 在模型的复杂度和训练数据拟合度之间加入了一项正则化项，以避免模型复杂度过高。这可以看作是在目标函数中引入一项“惩罚项”，以防止模型过拟合。

SRM 是一种理论上完整的方法，它可以为不同的模型选择合适的正则化项，并通过统计学习理论提供了基本的理论保证。

2.正则化

正则化是一种在机器学习中用于降低模型过拟合风险的技术。过拟合指的是模型在训练数据上表现良好，但在新数据上表现不佳的情况。正则化通过向模型的损失函数添加一个惩罚项，限制模型的复杂度，从而提高模型在新数据上的表现。

在正则化中，通常会将惩罚项添加到损失函数中，损失函数的定义如下：

L(w) = E(D, w) + αR(w)

其中，L(w)表示加上惩罚项后的损失函数，E(D, w)表示模型的预测误差，α表示正则化系数，R(w)表示惩罚项，它通常是权重向量的范数，例如L1范数或L2范数。

通过调节正则化系数，可以控制模型的复杂度，进而控制过拟合的风险。当α较小时，模型的复杂度较高，容易过拟合；当α较大时，模型的复杂度较低，容易欠拟合。因此，在实际应用中，需要对正则化系数进行调参，找到最优的系数，以获得最好的模型表现。

3.线性回归

线性回归是一种基本的统计分析方法，用于建立一个输入变量和一个连续的输出变量之间的线性关系模型。该模型可以用来预测未知的输出变量值，也可以用来分析输入变量与输出变量之间的关系。

在线性回归中，通过寻找一条最佳的直线（或者说超平面），来最小化预测值与实际值之间的误差。该直线可以被描述为一个由截距和斜率组成的方程式，表示为：y = b0 + b1 * x，其中y是输出变量，x是输入变量，b0是截距，b1是斜率。

线性回归模型可以用来解决很多不同的问题，包括市场趋势预测、经济分析、工程控制、以及其他一些需要对连续变量进行预测或分析的情况。

4.逻辑斯蒂回归

逻辑斯蒂回归（Logistic Regression）是一种用于分类问题的机器学习算法，它将输入变量与输出变量之间的关系建模为一个logistic函数。该算法的主要思想是，将输入变量与输出变量之间的关系表示为概率，从而使得分类问题变为概率估计问题。

在逻辑斯蒂回归中，输入变量的线性组合通过一个sigmoid函数转换为输出变量的概率值，该sigmoid函数被称为logistic函数。logistic函数将输入值映射到一个0到1之间的输出值，这个输出值可以被视为事件发生的概率。

逻辑斯蒂回归可用于二元分类问题，其中输出变量只能取两个离散值，例如“是”或“否”，“真”或“假”，“成功”或“失败”。它也可以扩展到多元分类问题，称为多元逻辑斯蒂回归或softmax回归。

逻辑斯蒂回归通常被用于许多领域，例如医学、金融、市场营销和社会科学等。它是一种简单而有效的算法，不需要太多的计算资源，因此被广泛应用。

5.Sigmoid 与 SoftMax 函数

（1）Sigmoid函数

Sigmoid函数是一种常见的数学函数，其输入为实数，输出在0到1之间。它通常用于二元分类问题，例如将数据点分类为“是”或“否”。Sigmoid函数的公式为：

sigmoid(x) = 1 / (1 + exp(-x))

其中，exp(-x)表示自然指数函数，即e的-x次方。

（2）Softmax函数

Softmax函数也是一种常见的数学函数，它通常用于多元分类问题，例如将数据点分类为三个或更多个不同的类别。Softmax函数将一组实数转换为一组概率分布，其中每个数对应一个类别，概率分布的和为1。Softmax函数的公式为：

softmax(x_i) = exp(x_i) / sum(exp(x_j))

其中，i是类别的索引，x_i是与该类别对应的实数，j是所有类别的索引，sum(exp(x_j))表示所有类别对应的实数的指数和。

需要注意的是，Sigmoid函数只能处理二元分类问题，而Softmax函数可以处理多元分类问题。

6.决策树

决策树是一种常见的机器学习算法，用于分类和回归分析。它是一种树形结构，其中每个内部节点表示一个特征或属性，每个分支代表该特征或属性的一个可能的值，而每个叶节点表示一个分类或回归结果。决策树的建立过程就是在已有数据集中寻找最优的特征或属性，并根据这些特征或属性的取值将数据集划分为子集，直到每个子集都可以被简单地分类或回归为止。

决策树的优点是易于理解和解释，能够处理非数值型数据和缺失数据，并且在处理大型数据集时具有高效性能。决策树也可以用于特征选择，提高模型的预测能力。然而，决策树容易过度拟合，因此需要进行剪枝处理。

7.信息熵条件熵信息增益

（1）信息熵

信息熵是用于衡量一段信息的随机性和不确定性的度量，也被称为香农熵。它最初由克劳德·香农在他的信息论中提出。信息熵被定义为在给定概率分布下，所需要的平均比特数来编码一段信息的期望值。如果信息越随机和不确定，那么它的信息熵就越高。

例如，一个硬币正面朝上的概率为0.5，而反面朝上的概率也为0.5。这个信息的信息熵是1比特，因为只需要一位比特来表示它。但是，如果一个硬币总是正面朝上，那么信息熵为0比特，因为不需要任何比特来表示它。

信息熵在许多领域中都有应用，如通信、密码学、数据压缩、图像处理等。

（2）条件熵

条件熵是信息论中的概念，表示在给定一个或多个随机变量的取值情况下，对另一个随机变量的不确定性的平均度量。具体地，如果有一个随机变量 X 和另一个随机变量 Y，则 X 给定 Y 的条件下的熵，即条件熵 H(X|Y)，定义为 X 的熵与 Y 和 X 的联合熵之差，即：

H(X|Y) = H(X,Y) - H(Y)

其中 H(X,Y) 是 X 和 Y 的联合熵，H(Y) 是 Y 的熵。条件熵 H(X|Y) 可以解释为给定 Y 的条件下，对于 X 的不确定性。当 Y 给定时，H(X|Y) 越小，则 X 的取值也越确定，反之亦然。

条件熵在信息论、概率论、统计学等领域中有广泛的应用，例如在决策树、信息检索、模式识别、语音识别等领域中被广泛使用。

（3）信息增益

信息增益是一个在决策树算法中使用的概念，它衡量一个属性对于数据集分类的重要性。它可以用于在建立决策树时选择最佳划分属性。

信息增益的计算基于信息熵的概念，信息熵是对于一个随机变量的不确定性的度量。如果一个随机变量有更多的可能取值，那么它的信息熵就更大。在分类问题中，信息熵被用来衡量数据集的不确定性。

对于一个数据集，假设它被划分为若干个类别，每个类别包含一部分样本。信息增益衡量的是在给定一个属性划分后，该属性能够减少数据集的不确定性的程度。具体地，信息增益等于原始数据集的信息熵减去使用该属性划分后的加权平均信息熵。

信息增益越大，说明该属性对于数据集的划分更为重要，因此在建立决策树时应该优先选择具有较大信息增益的属性进行划分。

8.线性判别分析 LDA

线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的多元统计分析方法，用于将样本分成两个或更多组，并确定每组之间最佳分离超平面的位置。LDA的目标是最大化组间方差，并最小化组内方差，从而实现最佳的分类效果。LDA是一种监督学习方法，需要已知分类标签的训练样本进行训练。

在LDA中，假设每个类别的样本都是由多元正态分布生成的，并且具有相同的协方差矩阵。通过计算类别均值和协方差矩阵，可以推导出最佳分类超平面的方程式，从而对新的样本进行分类。

LDA常用于模式识别、生物统计学、金融分析等领域，尤其在高维数据集中表现良好。

9.概率近似正确 PAC

概率近似正确（PAC）是一种理论框架，用于评估机器学习算法的性能。PAC 理论最初由 Leslie Valiant 在 1984 年提出，它试图回答一个重要的问题：当我们从有限的数据集中学习时，我们能否保证学习算法在新的未见数据上的性能和在训练数据上的性能一样好。

在 PAC 框架中，一个学习算法被认为是“概率近似正确的”，如果它能够以高概率（即接近 1 的概率）输出一个与真实数据分布相近的假设，并且这个假设的错误率不超过预先设定的阈值。具体来说，一个算法被认为是 PAC 可学习的，如果它在给定有限的样本数和错误率阈值时，可以在多项式时间内学习一个概率近似正确的假设。

PAC 理论提供了一种量化机器学习算法性能的标准，并且可以帮助我们确定学习问题的可解性。如果一个学习问题可以被证明是 PAC 可学习的，那么就可以保证在有限的时间和样本大小下，学习算法可以在可接受的错误率内得到一个好的假设。

10.自适应提升AdaBoost

自适应提升（AdaBoost）是一种集成学习方法，用于提高机器学习算法的准确性和稳定性。AdaBoost 是由 Freund 和 Schapire 在 1996 年提出的，是一种迭代算法，每次迭代都会调整被错误分类的样本的权重，以便下一个基本分类器能够更好地分类这些样本。

在 AdaBoost 算法中，每个基本分类器都被赋予一个权重，该权重取决于其分类准确性。然后，这些权重用于计算最终分类器的加权平均值，以使其对所有分类器的结果进行加权投票。通过这种方式，AdaBoost 能够在多个弱分类器的帮助下，形成一个强大的分类器，从而提高模型的准确性。

AdaBoost 算法的一个关键优点是它可以处理高维度的数据，并且在处理噪声和异常值时也表现出色。另外，AdaBoost 也可以应用于不同类型的学习任务，包括分类和回归等。