机器学习/深度学习的相关概念_cruse of dimesion-CSDN博客

在支持向量机中，通常希望找到一个最优的超平面来分隔不同类别的数据点。然而，在现实世界的数据中，很多时候数据是不完全线性可分的，即使找到一个超平面能够将大部分数据正确分类，仍然会有一些数据点落在错误的一侧。Soft Margin方法允许一些数据点出现在超平面的错误一侧，通过引入惩罚项来平衡分类边界的最大化和错误分类点的数量。这样可以使得模型更加鲁棒，对噪声和异常点的影响较小。（鲁棒性是指模型对于输入数据的变化和噪声的稳健性。）

三、决策树（decision tree）

决策树是一种用于分类和预测的机器学习模型，它通过树状结构来表示不同的决策路径和结果。在决策树中，每个节点代表一个属性或特征，而每个分支代表该属性或特征的取值，最终的叶子节点则代表分类或预测的结果。

信息熵

信息熵是一种用于衡量数据不确定性的指标，它在决策树中被用来选择最佳的属性或特征进行分裂。信息熵的计算基于数据的分布和分类结果的不确定性，通过最小化信息熵来选择最佳的分裂属性，从而构建出更加准确的决策树模型。信息熵越低，表示数据的不确定性越小，决策树模型的预测准确性也会更高。

四、集成学习（ensemble learning）

集成学习是一种通过组合多个模型来提高预测准确性的机器学习方法。Bagging和Boosting是两种常见的集成学习方法。

1. Bagging

Bagging可以降低模型的方差，提高模型的稳定性和泛化能力，适用于高方差的模型（如决策树）。

Bagging的步骤如下：
1. 从原始数据集中随机抽取多个子集（有放回抽样）。
2. 对每个子集进行训练，得到多个基本模型。
3. 将多个基本模型的预测结果进行平均或投票，得到最终预测结果。

2. Boosting

Boosting可以降低模型的偏差，提高模型的准确性，适用于低偏差的模型（如线性模型）。

Boosting的步骤如下：
1. 使用原始数据集训练一个基本模型。
2. 根据基本模型的表现对数据集进行加权，使得之前预测错误的样本在下一轮训练中得到更多关注。
3. 重复上述步骤，得到多个基本模型。
4. 将多个基本模型进行加权组合，得到最终预测结果。

3. Bagging和Boosting的区别

两者的区别主要在于样本的处理方式和基本模型的训练方式：
1. Bagging使用有放回抽样得到多个子集，每个子集上训练独立的基本模型，最终结果通过平均或投票得到；Boosting则是通过加权训练得到多个基本模型，最终结果通过加权组合得到。
2. Bagging的基本模型之间是独立的，Boosting的基本模型是依赖于之前的模型进行训练的。

（三）评价指标：

1. R2、准确率、精准率、召回率、F1值

深度学习

机器学习是一种通过对数据进行训练来使计算机系统具有学习能力的技术。它依赖于一系列算法和模型来识别模式并做出预测。而深度学习是机器学习的一种特殊形式，它使用人工神经网络来模拟人脑的工作方式，通过多层次的神经元结构来处理和分析数据。

深度学习通常需要更多的数据和计算资源来训练模型，因为它的模型更加复杂，需要更多的参数和计算量。

维数灾难和流形学习的概念

维数灾难(curse of dimension)

维数灾难是指在高维空间中进行数据分析和模式识别时所面临的一系列问题。随着数据维度的增加，数据点之间的距离变得越来越远，这会导致数据稀疏性增加，使得传统的机器学习算法在高维空间中变得不够有效。这也会导致需要更多的数据来填充高维空间，而且会增加计算的复杂度和资源消耗。

对于维数灾难的问题，流形学习是一种用来解决它的方法。

流形学习（mainfold learning）

流形学习是一种用来解决维数灾难问题的方法。它假设数据分布在一个低维流形上，即使数据原本是在高维空间中的，流形学习可以通过学习数据的内在结构来降低数据的维度。通过将数据映射到一个更低维的流形空间上，可以减少维数灾难带来的问题，使得数据分析和模式识别更加有效。

除了流形学习之外，深度学习在一定程度上也可以缓解维数灾难的问题。由于深度学习模型有能力自动地从数据中学习特征和模式，它可以在高维空间中发现数据的内在结构，并将其映射到更低维的表示空间中。

总的来说，维数灾难是在高维空间中进行数据分析时所面临的问题，而流形学习和深度学习都是可以用来应对维数灾难的方法。流形学习通过降低数据的维度来解决维数灾难问题，而深度学习则能够通过学习数据的内在结构来更好地处理高维数据。

流程

机器学习和深度学习较大的区别在于模型的训练过程。

模型训练的方式

1. 前馈神经网络（Feedforward Neural Network）

前馈神经网络是最简单的神经网络类型，也称为多层感知机（Multilayer Perceptron，MLP）。它由输入层、若干个隐藏层和输出层组成，每一层的神经元与下一层的神经元全连接。数据在网络中从输入层开始，逐层传递直到输出层，没有反馈连接。前馈神经网络适用于处理静态数据，如图像分类、文本分类等任务。