机器学习基础LAN_一般是多少数据用于学习多少数据用于验证-CSDN博客

本文链接：https://blog.csdn.net/xdy1120/article/details/106712035

通常，我们会更加关注机器学习算法在未观测数据上的性能如何，因为这将决定其在实际应用中的性能。
因此，我们使用测试集（test set）数据来评估系统性能，将其与训练机器学习系统的训练集数据分开。

无监督学习算法：

训练含有很多特征的数据集，然后学习出这个数据集上有用的结构性质。在深度学习中，
我们通常要学习生成数据集的整个概率分布，显式地，比如密度估计，或是隐式地，比如合成或去噪。
还有一些其他类型的无监督学习任务，例如聚类，将数据集分成相似样本的集合。

监督学习算法：

训练含有很多特征的数据集，不过数据集中的样本都有一个 标签（label）或 目标（target）。
例如，Iris 数据集注明了每个鸢尾花卉样本属于什么品种。监督学习算法通过研究 Iris 数据集，
学习如何根据测量结果将样本划分为三个不同品种。

在这里插入图片描述
示例：线性回归

仿射函数，即最高次数为1的多项式函数。常数项为零的仿射函数称为线性函数。
仿射函数即由1阶多项式构成的函数，一般形式为 f (x) = A x + b，这里，A 是一个 m×k 矩阵，x 是一个 k 向量,b是一个m向量，
实际上反映了一种从 k 维到 m 维的空间映射关系。

在这里插入图片描述
泛化：

 机器学习的主要挑战是我们的算法必须能够在先前未观测的新输入上表现良好，
而不只是在训练集上表现良好。在先前未观测到的输入上表现良好的能力被称为 泛 化

训练误差：

通常情况下，当我们训练机器学习模型时，我们可以使用某个训练集，
在训练集上计算一些被称为 训练误差的度量误差，目标是降低训练误差。

泛化误差(测试误差)：

机器学习和优化不同的地方在于，我们也希望 泛化误差很低。
泛化误差被定义为新输入的误差期望。
通常，我们度量模型在训练集中分出来的 测试集（test set）样本上的性能，
来评估机器学习模型的泛化误差。

在这里插入图片描述
数据生成分布:

通常，我们会做一系列被统称为 独立同分布假设的假设。
该假设是说，每个数据集中的样本都是彼此 相互独立的，并且训练集和测试集是 同分布的，采样自相同的分布。
相同的分布可以用来生成每一个训练样本和每一个测试样本。
我们将这个共享的潜在分布称为 数据生成分布，记作 pdata。
这个概率框架和独立同分布假设允许我们从数学上研究训练误差和测试误差之间的关系.

欠拟合:
欠拟合是指模型不能在训练集上获得足够低的误差.

过拟合:
过拟合是指训练误差和和测试误差之间的差距太大。

模型容量：(学习到的特征数)
模型的容量是指其拟合各种函数的能力。
容量低的模型可能很难拟合训练集。
容量高的模型可能会过拟合，因为记住了不适用于测试集的训练集性质。
通过调整模型的容量，我们可以控制模型是否偏向于过拟合或者欠拟合。
线性回归算法将关于其输入的所有线性函数作为假设空间。
广义线性回归的假设空间包括多项式函数，而非仅有线性函数。这样做就增加了模型的容量。
在这里插入图片描述

为了逻辑地推断一个规则去描述集合中的元素，我们必须具有集合中每个元素的信息。
在一定程度上，机器学习仅通过概率法则就可以避免这个问题，而无需使用纯逻辑推理整个确定性法则。
机器学习保证找到一个在所关注的大多数样本上可能正确的规则。

正则化：

算法的效果不仅很大程度上受影响于假设空间的函数数量，也取决于这些函数的具体形式。
我们已经讨论的学习算法（线性回归）具有包含其输入的线性函数集的假设空间。
对于输入和输出确实接近线性相关的问题，这些线性函数是很有用的。
对于完全非线性的问题它们不太有效。例如，我们用线性回归，从 x 预测 sin(x)，效果不会好。

权重衰减：
在这里插入图片描述

超参数：
在图 5.2 所示的多项式回归示例中，有一个超参数：多项式的次数，作为容量超参数。
控制权重衰减程度的 λ 是另一个超参数。
超参数不用学习的原因：
1、有时一个选项被设为学习算法不用学习的超参数，是因为它太难优化了。
2、更多的情况是，该选项必须是超参数，因为它不适合在训练集上学习。

如果在训练集上学习超参数，这些超参数总是趋向于最大可能的模型容量，导致过拟合。
例如，相比低次多项式和正的权重衰减设定，更高次的多项式和权重衰减参数设定 λ = 0 总能在训练集上更好地拟合。

验证集：

验证集是用来 ‘‘训练’’ 超参数的。
早先我们讨论过和训练数据相同分布的样本组成的测试集，它可以用来估计学习过程完成之后的学习器的泛化误差。
其重点在于测试样本不能以任何形式参与到模型的选择中，包括设定超参数。
基于这个原因，测试集中的样本不能用于验证集。
因此，我们总是从训练数据中构建验证集。
特别地，我们将训练数据分成两个不相交的子集。
其中一个用于学习参数。另一个作为验证集，用于估计训练中或训练后的泛化误差，更新超参数。
通常，80% 的训练数据用于训练，20% 用于验证。
尽管验证集的误差通常会比训练集误差小，验证集会低估泛化误差。
所有超参数优化完成之后，泛化误差可能会通过测试集来估计。

k-折交叉验证：
在这里插入图片描述

一般情况将K折交叉验证用于模型调优，找到使得模型泛化性能最优的超参值。
找到后，在全部训练集上重新训练模型，并使用独立测试集对模型性能做出最终评价。
K折交叉验证使用了无重复抽样技术的好处：
每次迭代过程中每个样本点只有一次被划入训练集或测试集的机会。
在这里插入图片描述
如果训练数据集相对较小，则增大k值。

增大k值，在每次迭代过程中将会有更多的数据用于模型训练，能够得到最小偏差，同时算法时间延长。
且训练块间高度相似，导致评价结果方差较高。

如果训练集相对较大，则减小k值。

减小k值，降低模型在不同的数据块上进行重复拟合的性能评估的计算成本，在平均性能的基础上获得模型的准确评估。

K折交叉验证的一个特例：

（LOO）交叉验证法：
将数据子集划分的数量等于样本数（k=n），每次只有一个样本用于测试，数据集非常小时，建议用此方法。

K折交叉验证改进成的分层K折交叉验证：

获得偏差和方差都低的评估结果，特别是类别比例相差较大时。

点估计：
在这里插入图片描述

偏差：

方差和标准差：

权衡偏差和方差以最小化均方误差：

一致性：

贝叶斯决策：

最大似然估计：

举个别人博客中的例子，假如有一个罐子，里面有黑白两种颜色的球，数目多少不知，两种颜色的比例也不知。我
们想知道罐中白球和黑球的比例，但我们不能把罐中的球全部拿出来数。现在我们可以每次任意从已经摇匀的罐中拿一个球出来，记录球的颜色，然后把拿出来的球
再放回罐中。这个过程可以重复，我们可以用记录的球的颜色来估计罐中黑白球的比例。假如在前面的一百次重复记录中，有七十次是白球，请问罐中白球所占的比例最有可能是多少？很多人马上就有答案了：70%。而其后的理论支撑是什么呢？

我们假设罐中白球的比例是p，那么黑球的比例就是1-p。因为每抽一个球出来，在记录颜色之后，
我们把抽出的球放回了罐中并摇匀，所以每次抽出来的球的颜 色服从同一独立分布。
这里我们把一次抽出来球的颜色称为一次抽样。题目中在一百次抽样中，
七十次是白球的概率是P(Data | M)，这里Data是所有的数据，M是所给出的模型，
表示每次抽出来的球是白色的概率为p。如果第一抽样的结果记为x1，
第二抽样的结果记为x2... 那么Data = (x1,x2,…,x100)。这样，

在这里插入图片描述

K-L散度(相对熵)

使用K-L散度优化模型：
p的值域在 [0, 1] 之间，我们要选择一个p值，建立二项式分布，目的是最小化近似误差，即K-L散度。那么0.57是最优的吗？
下图是原始数据分布和二项式分布的K-L散度变化随二项式分布参数p变化情况：
在这里插入图片描述
通过上面的曲线图可以看出，K-L散度值在圆点处最小，即p=0.57。所以我们之前的二项式分布模型已经是最优的二项式模型了。

当p=0.47时，K-L值取最小值0.338。

基于最大似然估计的模式分类实例：

在这里插入图片描述

条件对数似然和均方误差：

最大似然估计解决线性回归：

从最终结果可以看出最大似然估计与最小二乘法解决线性回归问题殊途同归，可以将最小二乘看成是最大似然估计的一个特殊情况。
最大似然的性质：
在这里插入图片描述

Beta分布：
用一句话来说，beta分布可以看作一个概率的概率分布，当你不知道一个东西的具体概率是多少时，它可以给出了所有概率出现的可能性大小。
举一个简单的例子，熟悉棒球运动的都知道有一个指标就是棒球击球率，就是用一个运动员击中的球数除以击球的总数，我们一般认为0.266是正常水平的击球率，而如果击球率高达0.3就被认为是非常优秀的。
现在有一个棒球运动员，我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率，用击中的数除以击球数，但是如果这个棒球运动员只打了一次，而且还命中了，那么他就击球率就是100%了，这显然是不合理的，因为根据棒球的历史信息，我们知道这个击球率应该是0.215到0.36之间才对啊。
对于这个问题，我们可以用一个二项分布表示（一系列成功或失败），一个最好的方法来表示这些经验（在统计中称为先验信息）就是用beta分布，这表示在我们没有看到这个运动员打球之前，我们就有了一个大概的范围。
beta分布的定义域是(0,1)这就跟概率的范围是一样的。接下来我们将这些先验信息转换为beta分布的参数，我们知道一个击球率应该是平均0.27左右，而他的范围是0.21到0.35，那么根据这个信息，我们可以取α=81,β=219
在这里插入图片描述
在这个例子里，我们的x轴就表示各个击球率的取值，x对应的y值就是这个击球率所对应的概率。也就是说beta分布可以看作一个概率的概率分布。
那么有了先验信息后，现在我们考虑一个运动员只打一次球，那么他现在的数据就是”1中;1击”。这时候我们就可以更新我们的分布了，让这个曲线做一些移动去适应我们的新信息。beta分布在数学上就给我们提供了这一性质，他与二项分布是共轭先验的。所谓共轭先验就是先验分布是beta分布，而后验分布同样是beta分布。结果很简单：
在这里插入图片描述

在贝叶斯统计中，如果先验和后验属于同类分布，则它们称作共轭分布，而先验称作是似然函数（本例中是二项分布）的共轭先验。

贝叶斯统计:

最大后验 (MAP) 估计：
在这里插入图片描述

概率监督学习：

支持向量机：

其他简单的监督学习算法：
决策树：

无监督学习算法：
主成分分析PCA：
PCA即主成分分析算法，是机器学习种应用得最广泛的数据降维算法。PCA的思想是将原始n维的数据映射到k维上(k<n)，这k维是全新的正交特征，也叫主成分。PCA的工作就是在原始的数据空间中顺序的找一组相互正交的坐标轴，新的坐标轴和数据本身是密切相关的。其中第一个坐标轴是原始数据中方差最大的方向，第二个坐标轴是和第一个坐标轴相交的坐标轴中最大的，以此类推，k个坐标轴是完全正交的。研究发现，大部分方差都包含在k个坐标中，后面的坐标轴所含的方差几乎为0。所以可忽略不计，以实现对数据的降维处理。
在这里插入图片描述

代码实现：

k-均值聚类：
K-Means算法的特点是类别的个数是人为给定的
K-Means的一个重要的假设是：数据之间的相似度可以使用欧氏距离度量，如果不能使用欧氏距离度量，要先把数据转换到能用欧氏距离度量，这一点很重要。
注：可以使用欧氏距离度量的意思就是欧氏距离越小，两个数据相似度越高）
在这里插入图片描述

有四个牧师去郊区布道，一开始牧师们随意选了几个布道点，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点……
就这样，牧师每个礼拜更新自己的位置，居民根据自己的情况选择布道点，最终稳定了下来。

在这里插入图片描述

DataScienceNote/TryKMeans.m at master · TsingJyujing/DataScienceNote · GitHub

随机梯度下降：

构建机器学习算法：

促使深度学习发展的挑战：

维数灾难：