机器学习笔记（持续更新中）

最新推荐文章于 2024-10-18 21:53:47 发布

安澜ovo

最新推荐文章于 2024-10-18 21:53:47 发布

阅读量934

点赞数 22

文章标签：机器学习笔记人工智能

本文链接：https://blog.csdn.net/weixin_65627925/article/details/135243921

版权

1.机器学习基本概念与sklearn简介

有监督学习

在有监督学习中，所有数据带有额外的属性（例如每个样本所属的类别），必须同时包含输入和预期输出（也就是特征和目标），通过大量已知的数据不断训练和减少错误来提高认知能力，最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。

1.分类算法：样本属于两个或多个离散的类别之一，我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。
2.回归算法：如果预期的输出是一个或多个连续变量，则分类问题变为回归问题。

无监督学习

在无监督学习算法中，训练数据包含一组输入向量而没有相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合（称作聚类），或者确定数据的分布（称作密度估计），或者把数据从高维空间投影到低维空间（称作降维）以便进行可视化。
一般地，不会把给定的整个数据集都用来训练模型，而是将其分成训练集和测试集两部分，模型使用训练集进行训练或学习，然后把测试集输入训练好的模型并评估其表现。

大多数模型都有若干参数可以设置，例如支持向量机模型的gamma参数。
这些参数可以手动设置，也可以使用网格搜索（grid search）和交叉验证（cross validation）寻找最合适的值。

基本术语

假定收集了一组手写体的数字图像，均以向量的形式表示，这组图像向量的集合称为一个数据集（Data Set），其中每个向量是关于一幅手写体数字的图像的描述，称为一个实例（Instance）或样本（Sample）。每个784维向量中的每一维反映了图像在某个特定方面的表现性质，称为属性（Attribute）或特征（Feature）；属性上的取值，也就是向量中每个元素对应的实数值，称为属性值（Attribute Value）。这些属性所张成的空间称为属性空间（Attribute Space），也叫样本空间（Sample Space）或输入空间（Input Space）。
所有特征张成一个用于描述手写数字的784维空间，在这个属性空间中，每一幅图像对应了该空间中的一个点。由于空间中的每个点可以用一个坐标向量来表示，也把一个样本称为一个特征向量（Feature Vector）

机器学习的方法试图从数据中寻找特定的模型，这种从数据中学得模型的过程称为学习（Learning）或训练（Training）。
在学习算法中，一个由N个数字组成的大的集合{x_1,x_2,⋯,x_N}被称作训练集（Training Set），用来调节模型的参数。这些在训练过程中使用的数据也称为训练数据（Training Data），其中每个样本称为一个训练样本（Training Sample）。训练集就是所有训练样本组成的集合。训练集中数字的类别称为目标向量（Target Vector），用来代表训练数据的标记信息或标签（Label）。拥有了标记信息的样本，则称为样例（Example）。一般地，用(x_i,y_i)表示第i个样例，其中y_i∈Y是样本x_i的标记，Y是所有标记的集合，亦称标记空间（Label Space）或输出空间（Output Space）。
依据训练数据是否拥有标记信息，机器学习任务可大致划分为监督学习（Supervised Learning）和无监督学习（Unsupervised Learning）两大类。

学得模型对应了关于数据的某种潜在规律，称为假设；这种潜在规律自身，称为真相。学习过程就是为了找出或逼近真相。
机器学习算法可以表示为一个函数y=f(x)，假设以手写体图像x作为输入，向量y作为输出，其中向量y的形式与目标向量的形式相同。在训练数据的基础上，函数f(x)的精确形式在训练阶段或学习阶段被确定。
一旦模型被训练出来，它就能确定新的手写体数字集合中的图像标签。这些新的手写体数字图像组成的集合称为测试集（Test Set）。使用学习得到的模型进行预测的过程称为测试（Testing），被预测的样本称为测试样本（Testing Sample）
学习得到的模型适用于新样本的能力称为泛化（Generalization）能力。

分类与回归：如果希望预测的结果是离散值，此类学习任务称为分类（Classification）；如果希望预测的结果是连续值，此类学习任务称为回归（Regression）。只涉及两个分类的任务称为二分类（Binary Classification），一类为正类（Positive Class），相应的样例为正例（Positive Example）；另一类为负类或反类（Negative Class），相应的样例称为负例或反例（Negative Example）。涉及多个类别时，则为多分类（Multi-Class Classification）任务。
聚类：如果学习过程中使用的训练样本不具备标记信息，我们依然希望可将训练集中的数据分成若干组，这样的学习任务称为聚类（Clustering），聚类任务中的每个组称为一个簇（Cluster)。分类和回归是监督学习的代表，聚类是非监督学习的代表。

把分类错误的样本数占样本总数的比例称为错误率 (Error Rate)，即如果在m个样本中有a个样本分类错误，则错误率E=a/m；
1－E称为精度，精度=1－错误率。
把学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error)，学习器在训练集上的误差称为训练误差(Training Error)或经验误差(Empirical Error)，在新样本上的误差称为测试误差 (Testing Error)或泛化误差(Generalization Error)。
过拟合(Overfitting)：对于一个假设，当存在其他的假设对训练样例的拟合比它差，但事实上在包含训练集合以外的实例上表现得更好时，说这个假设过度拟合训练样例。发生过拟合可能原因：训练样例含有随机错误或噪声、学习器的学习能力过于强大、训练样例太少。过拟合是无法彻底避免的。
欠拟合(Underfitting)，是指学习器对训练样本的一般性质尚未学好。