第三章 线性模型
机器学习三要素:
1.模型:根据具体问题,确定假设空间
2.策略:根据评价标准,确定选取最优模型的策略(通常会产出一个“损失函数”)
3.算法:求解损失函数,确定最优模型
3.1 基本形式
d 个属性描述的示例 x = (x1 ;x2;…; xd), 其中均是 x 在第 i个属 性上的取值
线性模试图学得一个通过属性的线性组合来进行预测的函数,即
一般用向量形式写成
其中w和b学的之后,模型就得以确定
w直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性
3.2 线性回归
一元线性回归
“最小二乘法”:基于均方误差最小化来进行模型求解的方法
均方误差的几何意义,对应了欧氏距离(不是严格的,少了根号)
在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小
极大似然估计
极大似然估计例题:
证明是凸函数
凸集和凸函数:
半正定矩阵的判定定理之一:若是对称矩阵的所有顺序主子式均为非负,则该矩阵为半正定矩阵
凸充分性理论:
多元线性回归
现实任务中,往往不是满秩矩阵,此时可解出多个
,他们都可以使均方误差最小化,选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入正则化(regularization)项
广义线性模型
联系函数g(·)将线性回归模型的预测值与真实标记联系起来
3.3 对数几率回归(逻辑回归)
Sigmoid函数:形似S的函数
几率和对数几率
3.4 线性判别分析
线性判别分析((Linear Discriminant Analysis,简称 LDA),经典的线性学习方法
LDA 的,思想非常朴素: 给定训练样例集,设法将样例投影到一条支线上,使得同类样例的投影点尽可能接近、 异类样例投影点尽可能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新样本的类别.
二范数的平方等于向量的数量积
最大化一个数相当于最小化一个数的相反数,转化为最小值问题
优化问题通常转化为最小值问题
可通过投影减小样本点的维数,且投影过程中使用了类别信息,因此LDA也被称为一种经典的监督降维技术
对数几率回归算法的机器学习三要素:
3.5 多分类学习
最经典的拆分策略有三种:“一对一” (One vs. One ,简称 OvO) “一对
其余” (One vs. Rest ,简称 OvR) 和"多对多" (Many vs. Many,简称 MvM).
一种最常用的 MvM 技术"纠错输出码" (Error Correcting Output Codes,简称 ECOC)…
3.6 类别不平衡问题
类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况
y/1-y是预测几率,m+/m-是观测几率,在训练集是真实无偏采样的情况下,观测几率代表了真实几率
注:
再缩放(再平衡):
由于"训练集是真实样本总体的无偏采样"这个假设往往并不成立,也就是说7,我们未必能有效地基于训练集观测几率来推断出真实几率.现有技术大体上有三种做法:
第 一类是直接对训练集里的反类样例进行"欠采样" (undersampling),即去除 一些反倒使得正、反例数日接近,然后再进行学习;第二类是对训练集里的 正类样例进行"过采样" (oversampling),即增加一些正例使得正、反例数目接近,然后再进行学习;第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式(3.48)嵌入到其决策过程中,称为"阈值移动" (threshold-moving).