第二章 数学/模型基础(模型部分)-1

本部分内容简单介绍需要掌握的经典机器学习算法

1.机器学习基本概念

1.1 机器学习定义

让计算机具有像人一样的学习和思考能力的技术的总称。具体来说 是从已知数据中获得规律,并利用规律对未知数据进行预测的技术

1.2 机器学习分类

有监督学习(Supervised Learning):有老师(环境)的情况下,学 生(计算机)从老师(环境)那里获得对错指示、最终答案的学习 方法。

无监督学习( Unsupervised Learning):没有老师(环境)的情况 下,学生(计算机)自学的过程,一般使用一些既定标准进行评价。 

弱监督学习:仅有少量环境提示(教师反馈)或者少量数据(试题) 标签(答案)的情况下,机器(学生)不断进行学习的方法

1.3 数据集

从数据集中学出模型的过程,便称为“学习”或“训练”。比如斯坦福李飞飞的IMAGENET数据集

训练集(Training set):用于模型拟合的数据样本

验证集(Validation set):是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。例如SVM中参数c(控制分类错误的惩罚程度)和核函数的选择, 或者选择网络结构

测试集(Test set): 用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据

1.4 误差分析

1.4.1 误差

算法实际预测输出与样本真实输出之间的差异。模型在训练集上的误差称为“训练误差”;模型在总体样本上的误差称为“泛化误差”;模型在测试集上的误差称为“测试误差”

由于我们无法知道总体样本,所以我们只能尽量最小化训练误差, 导致训练误差和泛化误差有可能存在明显差异

1.4.2 过拟合

是指模型能很好地拟合训练样本,而无法很好地拟合测试样本的现 象,从而导致泛化性能下降

为防止“过拟合” ,可以选择减少参数、降低模型复杂度、正则化.....

1.4.3 欠拟合

是指模型还没有很好地训练出数据的一般规律,模型拟合程度不高 的现象

为防止“欠拟合” ,可以选择调整参数、增加迭代深度、换用更加复杂的模型

1.4.4 泛化误差分析

推导过程:

偏差(bias)反映了模型在样本上的期望输出与真实标记之间的差距,即模型本身的精准度,反映的是模型本身的拟合能力

方差(variance)反映了模型在不同训练数据集下学得的函数的输出与期望输出之间的误差,即模型的稳定性,反应的是模型的波动情况

欠拟合是高偏差低方差,怎么缓解呢?

寻找更好的特征,提升对数据的刻画能力;增加特征数量;重新选择更加复杂的模型

过拟合是低偏差高方差,怎么缓解呢?

增加训练样本数量;减少特征维数,高维空间密度小;加入正则化项,使得模型更加平滑

还有个办法:交叉验证(Cross Validation) 

基本思路:将训练集划分为K份,每次采用其中K-1份作为训练集, 另外一份作为验证集,在训练集上学得函数后,然后在验证集上计算误差---K折交叉验证

  K折重复多次,每次重复中产生不同的分割

  留一交叉验证(Leave-One-Out)

2.代表性机器学习方法

2.1 机器学习分类

2.1.1 有监督学习:代表任务“分类”和“回归”

数据集有标记(答案)

监督学习的任务是训练出一个模型用于预测y的取值

若预测的值是离散值,如年龄,此类学习任务称为“分类”

若预测的值是连续值,如房价,此类学习任务称为“回归”

2.1.2 无监督学习:代表任务“聚类”和“降维”

数据集没有标记信息(自学)

聚类:我们可以使用无监督学习来预测各样本之间的关联度,把关联度大的样本划为同一类,关联度小的样本划为不同类,这便是 “聚类”

降维:我们也可以使用无监督学习处理数据,把维度较高、计算复杂的数据,转化为维度低、易处理、且蕴含的信息不丢失或较少丢失的数据,这便是“降维”

2.2 有监督学习-线性回归

在样本属性和标签中找到一个线性关系的方法

根据训练数据找到一个线性模型,使得模型产生的预测值与样本标签的差距最小

线性回归要学习的参数就是权重向量w和偏置向量b。如果用最小均方误差来衡量预测值与样本标签的差距,那么线性回归学习的目标可以表示为:

2.3 有监督学习-逻辑回归

逻辑回归通过将线性回归与sigmoid函数结合,实现了从线性关系到概率预测的转换。它将线性回归的输出作为sigmoid函数的输入,利用sigmoid函数,将线性回归产生的预测值压缩到0和1之间,经过转换后得到概率值。这样,我们就可以通过调整线性回归的参数,来控制概率值的输出范围,从而实现更精细的概率预测。此时将y视作样本为正例的可能性,即:

注意,逻辑回归本质上属于分类算法, sigmoid函数的具体表达形式为:

2.4 有监督学习-支持向量机SVM

是有监督学习中最具有影响力的方法之一,是基于线性判别函数的一种模型

SVM基本思想:对于线性可分的数据,能将训练样本划分开的超平面有很多,于是我们寻找“位于两类训练样本正中心的超平面” , 即margin最大化。从直观上看,这种划分对训练样本局部扰动的承受性最好。事实上,这种划分的性能也表现较好

2.5 有监督学习-决策树

是一种基于树结构进行决策的机器学习方法,这恰是人类面临决策时一种很自然的处理机制

在这些树的结构里, 叶子节点给出类标而内部节点代表某个属性

决策树的生成过程中,最重要的因素便是根节点的选择, 即选择哪种特征作为决策因素

决策树的生成是一个递归过程,有三种情况会导致递归返回:①当前结点包含的样本属于同一类别; ②当前属性集为空,或所有样本在所有属性取值相同;③当前结点包含的集合为空

2.6 有监督学习算法-随机森林

集成学习(Ensemble learning):这个是随机森林的设计思想。组合多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。深度学习中可以通过这种思想提高模型泛化能力,缓解过拟合。

该算法用随机的方式建立起一棵棵决策树,然后由这些决策树组成 一个森林,其中每棵决策树之间没有关联,当有一个新的样本输入 时,就让每棵树独立的做出判断,按照多数原则决定该样本的分类结果。

2.6.1 随机森林构建的基本步骤

随机有放回地从训练集中的抽取m个训练样本,训练集D

从D对应的特征属性中随机选择部分特征,构建决策树

重复上述步骤构建多个决策树

2.6.2 预测步骤

向建立好的随机森林中输入一个新样本

随机森林中的每棵决策树都独立的做出判断

将得到票数最多的分类结果作为该样本最终的类别

2.7 无监督学习方法-聚类

目的:将数据分成多个类别,在同一个类内,对象(实体)之间具有较高的相似性,在不同类内,对象之间具有较大的差异

对一批没有类别标签的样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为其它类。这种分类称为聚类分析,也称为无监督分类

常见方法:K-Means聚类、均值漂移聚类、基于密度的聚类等

2.7.1 K-means聚类是一个反复迭代的过程,算法分为四个步骤:

1) 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心;

2) 对于样本中的数据对象,根据它们与这些聚类中心的欧氏距离, 按距离最近的准则将它们分到距离它们最近的聚类中心(最相似) 所对应的类;

3) 更新聚类中心:将每个类别中所有对象所对应的均值作为该类别的聚类中心,计算目标函数的值;

4) 判断聚类中心和目标函数的值是否发生改变,若不变,则输出结果,若改变,则返回2)

2.8 无监督学习-降维

目的:将原始样本数据的维度d降低到一个更小的数m,且尽量使得样本蕴含信息量损失最小,或还原数据时产生的误差最小

优势:数据在低维下更容易处理、更容易使用;相关特征,特别是重要特征更能在数据中明确的显示出来;如果只有二维或者三维的话,能够进行可视化展示;去除数据噪声,降低算法开销等

  • 25
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值