机器学习笔记(持续更新中)

1.机器学习基本概念与sklearn简介

有监督学习

在有监督学习中,所有数据带有额外的属性(例如每个样本所属的类别),必须同时包含输入和预期输出(也就是特征和目标),通过大量已知的数据不断训练和减少错误来提高认知能力,最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。

1.分类算法:样本属于两个或多个离散的类别之一,我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。
2.回归算法:如果预期的输出是一个或多个连续变量,则分类问题变为回归问题。

无监督学习

在无监督学习算法中,训练数据包含一组输入向量而没有相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合(称作聚类),或者确定数据的分布(称作密度估计),或者把数据从高维空间投影到低维空间(称作降维)以便进行可视化。
一般地,不会把给定的整个数据集都用来训练模型,而是将其分成训练集和测试集两部分,模型使用训练集进行训练或学习,然后把测试集输入训练好的模型并评估其表现。

大多数模型都有若干参数可以设置,例如支持向量机模型的gamma参数。
这些参数可以手动设置,也可以使用网格搜索(grid search)和交叉验证(cross validation)寻找最合适的值。

基本术语

假定收集了一组手写体的数字图像,均以向量的形式表示,这组图像向量的集合称为一个数据集(Data Set),其中每个向量是关于一幅手写体数字的图像的描述,称为一个实例(Instance)样本(Sample)。每个784维向量中的每一维反映了图像在某个特定方面的表现性质,称为属性(Attribute)或特征(Feature);属性上的取值,也就是向量中每个元素对应的实数值,称为属性值(Attribute Value)。这些属性所张成的空间称为属性空间(Attribute Space),也叫样本空间(Sample Space)或输入空间(Input Space)
所有特征张成一个用于描述手写数字的784维空间,在这个属性空间中,每一幅图像对应了该空间中的一个点。由于空间中的每个点可以用一个坐标向量来表示,也把一个样本称为一个特征向量(Feature  Vector)

机器学习的方法试图从数据中寻找特定的模型,这种从数据中学得模型的过程称为学习(Learning)或训练(Training)
在学习算法中,一个由N个数字组成的大的集合{x_1,x_2,⋯,x_N}被称作训练集(Training Set),用来调节模型的参数。这些在训练过程中使用的数据也称为训练数据(Training Data),其中每个样本称为一个训练样本(Training Sample)。训练集就是所有训练样本组成的集合。训练集中数字的类别称为目标向量(Target Vector),用来代表训练数据的标记信息或标签(Label)。拥有了标记信息的样本,则称为样例(Example)。一般地,用(x_i,y_i)表示第i个样例,其中y_i∈Y是样本x_i的标记,Y是所有标记的集合,亦称标记空间(Label Space)或输出空间(Output Space)。
依据训练数据是否拥有标记信息,机器学习任务可大致划分为监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)两大类。

学得模型对应了关于数据的某种潜在规律,称为假设;这种潜在规律自身,称为真相。学习过程就是为了找出或逼近真相。
机器学习算法可以表示为一个函数y=f(x),假设以手写体图像x作为输入,向量y作为输出,其中向量y的形式与目标向量的形式相同。在训练数据的基础上,函数f(x)的精确形式在训练阶段或学习阶段被确定。
一旦模型被训练出来,它就能确定新的手写体数字集合中的图像标签。这些新的手写体数字图像组成的集合称为测试集(Test Set)。使用学习得到的模型进行预测的过程称为测试(Testing),被预测的样本称为测试样本(Testing Sample)
学习得到的模型适用于新样本的能力称为泛化(Generalization)能力。

分类与回归:如果希望预测的结果是离散值,此类学习任务称为分类(Classification);如果希望预测的结果是连续值,此类学习任务称为回归(Regression)。只涉及两个分类的任务称为二分类(Binary Classification) ,一类为正类(Positive Class),相应的样例为正例(Positive Example);另一类为负类或反类(Negative Class),相应的样例称为负例或反例(Negative Example) 。涉及多个类别时,则为多分类(Multi-Class Classification)任务。
聚类:如果学习过程中使用的训练样本不具备标记信息,我们依然希望可将训练集中的数据分成若干组,这样的学习任务称为聚类(Clustering),聚类任务中的每个组称为一个簇(Cluster)分类和回归是监督学习的代表,聚类是非监督学习的代表。

把分类错误的样本数占样本总数的比例称为错误率 (Error Rate),即如果在m个样本中有a个样本分类错误,则错误率E=a/m;
 1-E称为精度,精度=1-错误率。
把学习器的实际预测输出与样本的真实输出之间的差异称为误差(Error),学习器在训练集上的误差称为训练误差(Training Error)或经验误差(Empirical Error),在新样本上的误差称为测试误差 (Testing Error)或泛化误差(Generalization Error)。
过拟合(Overfitting):对于一个假设,当存在其他的假设对训练样例的拟合比它差,但事实上在包含训练集合以外的实例上表现得更好时,说这个假设过度拟合训练样例。发生过拟合可能原因:训练样例含有随机错误或噪声、学习器的学习能力过于强大、训练样例太少。过拟合是无法彻底避免的。
欠拟合(Underfitting),是指学习器对训练样本的一般性质尚未学好。

  • 22
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值