机器学习 第三章

目录

一、基本形式

二、线性回归

三、对数几率回归

四、线性判别分析

五、多分类学习

六、类别不平衡问题

总结


一、基本形式

给定由n个属性描述的示例x,其中x_i是x在第i个属性上的取值,线性模型试图学得一个通过属性得线性组合来进行预测得函数,使用向量形式表示为f(x)=\textbf{w}^T\textbf{x}+b。线性模型形式简单易于建模,并且其有很好的可解释性。

二、线性回归

给定数据集D=\left \{ (x_1,y_1),(x_2,y_2),\cdots ,(x_m,y_ m) \right \},线性回归试图学得一个线性模型以尽可能准确的预测实值输出标记。对于离散属性,若属性值间存在序关系,可通过连续化将其转化为连续值。

线性回归试图学得f(x_i)=wx_i+b,使得f(x_i)\simeq y_i。其中确定w和b的值关键在于衡量f(x)和y之间的差别。回归任务中经常使用均方误差来度量性能,其表达为:

 它的几何意义对应了欧几里得距离或简称为欧氏距离。这个方法叫做最小二乘法,它就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。求解w和b使欧氏距离最小化的过程叫做线性回归模型的最小二乘参数估计,其最优解的闭式解为:

其次还存在多元线性回归,即样本由d个属性描述。对于多元线性回归,大部分的操作和前述的差不多 ,不过在对于最优解的闭式解计算时,需要涉及矩阵逆的计算。最终得到的多元线性回归模型为f(\hat{x}_i)=\hat{x}_i^T(X^TX)^{-1}X^T\textbf{y}。这是在X^TX为正定矩阵的情况下。当其不满秩时,可以引入正则化项来解决。

假设示例所对应的输出标记是在指数尺度上变化,那么可将输出标记的对数作为线性模型逼近,即lny=\textbf{w}^T\textbf{x}+b,叫做对数线性回归。更一般的考虑单调可微函数g,令y=g^{-1}(\textbf{w}^T\textbf{x}+b),叫做广义线性模型,函数g叫做联系函数。

三、对数几率回归

对于分类任务进行线性回归,只需找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来。对于二分类问题,可将线性回归模型产生的预测值转化为0/1值。最理想的为单位阶跃函数,它不是连续的。可以使用对数几率函数来替代前面广义线性模型的g函数。那么可以得到线性回归函数为:

其实际上是在用线性回归模型的预测结果去逼近真实标记的对数几率,所有其对应模型称为对数几率回归。实际是一种分类学习方法。它可以避免假设分布不准确所带来的问题。对于其中w和b的确定,令\beta =(w;b),可得第t+1轮迭代解的更新公式为:

其中\beta的一、二阶导数为:

四、线性判别分析

 线性判别分析(LDA)是一种经典的线性学习方法。LDA的思想为给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;在对新样 本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定样本的类别。其二维示意图如下所示:

\chi _i\mu _i\Sigma _i表示第i类示例的集合、均值向量、协方差矩阵。将数据投影到直线w上,同时考虑协方差尽可能大和类中心的距离也尽可能大,那么可以得到欲最大化的目标:

其中定义类内散度矩阵为:

 类间散度矩阵为:S_b=(\mu _0-\mu _1)(\mu _0-\mu _1)^T。那么最后可将最大化的目标化为J=\frac{w^TS_bw}{w^TS_ww},即两者的广义瑞利商。

 当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。并且LDA也可以推广到多分类问题,其部分操作和二分类问题差不多。LDA也常被视为一种经典的监督降维技术。

五、多分类学习

其基本思路为拆解法,即将多分类任务拆为多个二分类任务求解。其关键在于如何对多分类问题进行拆分,以及如何对多个分类器进行集成。最经典的拆分策略有三种:“一对一(OvO)”,“一对其余(OvR)”,“多对多(MvM)”。给定数据集D=\left \{ (x_1,y_1),(x_2,y_2),\cdots ,(x_m,y_ m) \right \}y_i\in \left \{ C_1,C_2,\cdots ,C_N \right \},OvO将这N个类别两两配对,产生N(N-1)/2个二分类问题。OvR是每次将一个类的样例作为正例,所有其他类的样例作为反例来训练N个分类器。两者的示意图如下所示:

OvO的存储开销和测试时间开销通常比OvR更大,但当类别很多时,OvO的训练时间开销比OvR小。

MvM时每次将若干个类作为正类,其他类作为反类。其正、反类构造必须有特殊的设计,最常见的技术为:纠错输出码(ECOC)。它的工作过程分为编码和解码两部分。类别划分通过编码矩阵指定。编码矩阵常见的有二元码和三元码,二元码指定正类和反类;三元码还可指定一个停用类。ECOC在测试阶段,会对分类器的错误有一定的容忍和修正能力。

六、类别不平衡问题

类别不平衡就是指分类任务中不同类别的训练样例数目差别很大。其中的一个基本策略为再缩放。现在技术的三大做法为1.直接对训练集里的反类样例进行欠采样(下采样),即去除一些反例使得正、反例数目接近,然后在进行学习。2.对训练集里的正类样例进行过采样(上采样),即增加一些正例使得正、反例数目接近,然后在进行学习。3.直接基于原始训练集进行学习,但在用分类器进行预测时将在缩放嵌入到决策过程中,叫做阈值移动。

在缩放是代价敏感学习的基础。

总结

本章主要对线性模型进行了讲解,它是机器学习中最基础也是应用最广泛的模型之一,其通过属性的线性组合来进行预测或分类。本章所讲的各种线性回归在不同的场景发挥着重要的作用,之后有对于类别不平衡问题提出了解决的方法。对这一章线性模型基础知识的学习,可以为后面更复杂的模型的学习打下基础。

  • 13
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值