1· 第三章 线性模型
3.1基本形式
非线性模型可以在线性模型的基础上通过引入层级结构或高维映射而得
3.2线性回归
对离散属性,若属性值间存在“序”关系,比如{1,0},若属性值间不存在序关系,假定有k个属性值,则通常转化为k维向量,
线性回归试图学得f(Xi)=WXi+Bi,使得f(Xi)≈Yi
均方误差是回归中最常用的性能度量,因此我们可以试图让均方误差最小化
均方误差有很好的几何意义,它对应了常用的欧几里得距离或“欧氏距离”
基于均方误差最小化来进行模型求解的方法称为“最小二乘法”
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧式距离之和最小
线性模型的最小二乘“参数估计”
更一般的情形是“多元线性回归”
常用的做法是引入正则化
"广义线性模型"如“对数线性回归”
3.3对数几率回归
对于分类任务,找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
“单位阶跃函数”
例如:y=0 z<0
y=0.5 z=0
y=1 z>0
即若预测值z大于零就判为正例,小于零则判为反例,为临界值则可以任意判别
因为单位阶跃函数不连续,所以我们使用对数几率函数,在一定程度上近似单位阶跃函数
y=1/(1+e^(-z))
“对数几率回归”是一种分类学习方法
3.4线性判别分析
线性判别分析(LDA)是一种经典的线性学习方法
LDA的思想非常朴素:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近,异类样例的投影点尽可能远离,在对新样例进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别
欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小
欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大
LDA可从贝叶斯决策理论的角度来阐释,并可证明,当两类数据同先验,满足高斯分布且协方差相等时,LDA可达到最优分类
LDA被视为一种经典的监督降维技术
3.5多分类学习
多分类学习的基本思路是“拆解法”,即将多分类任务拆为若干个二分类任务求解
最经典的拆分策略有三种:“一对一”(OvO)“一对其余”(OvR)和“多对多”(MvM)
OvO将N个类别两两配对,从而产生N(N-1)/2个二分类任务,把预测得最多的类别作为最终分类结果
OvR每次将一个类的样例作为正例,所有其他类的样例作为反例来训练N个分类器,在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果
OvO的存储开销和测试时间开销通常比OvR大,但OvO的训练时间开销比OvR小,至于预测性能,则取决于具体的数据分布,在多数情况下两者差不多
MvM是每次将若干个类作为正类,若干个类作为反类
“纠错输出码”(EOOC)
EOOC工作过程主要分为两步:
编码:对N个类别做M次划分,每次划分将一部分类别化为正类,一部分化为反类,从而形成一个二分类训练集,这样一共产生M个训练集,可训练出M个分类器
解码:M个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个编码与每个类别各自的编码进行比较,返回其中距离最小的类别最为最终预测结果