西瓜书:ch3线性模型概要总结

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

提示:这里可以添加本文要记录的大概内容:


提示:以下是本篇文章正文内容,下面案例可供参考

一、基本形式

二、线性回归

三、对数几率回归(逻辑回归)

对数几率回归(LR)属于广义线性回归,解决了线性回归不擅长的分类问题,常用于二分类。
LR使用的是sigmoid函数模型,Sigmoid 函数即形似S的函数,对率函数在神经网络中有重要作用。
对率回归有很多优点,例如它是直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题;它不是仅预测出"类别",而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用;此外,对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解.
LR可通过"极大似然法" (maximum likelihood method) 来估计参数w和b,详见P59。


四、线性判别分析LDA

线性判别分析(Linear Discriminant analysis) ,简称 LDA ,是经典的线性学习方法,用于二分类问题。
LDA 的思想非常朴素: 给定训练样本,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、 异类样例的投影点尽可能能远离;在对新样本进行分类时,将其投影到同样的这条直线上,再根据投点的位置来确定样本的类别.二维示意图如下所示:
LDA二维示意图

欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差(偏离均值中心的程度)尽可能小;欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大。
定义"类内散度矩阵" (withi -cl scatter matrix)Sw,是两类样本协方差之和:
类内散度矩阵
以及与"类问散度矩阵" (betwee class scatter matrix)Sb,是两个类别的中心(均值)的距离:
类间散度矩阵
下式就是LDA欲最大化的目标,即Sw与Sb的广义瑞利商:
最大化的目标
如何确定参数w详见P61,运用了拉格朗日乘子法和奇异值分解等。
值得一提的是, LDA 可从贝时斯决策理论的角度来阐释,井可证明,当两类数据同先验、满足高斯分布且协方差相等时, LDA 可达到最优分类.
PS,可以将 LDA 推广到多分类任务中。详见P62。LDA也常被视为一种经典的监督降维技术。


五、多分类学习

多分类学习的基本思路是"拆解法”,即将多分类任务拆为若干个二分类任务求解,关键是如何对多分类任务进行拆分,以及如何对多个分类器进行集成.
最经典的拆分策略有三种. “一对一” (One vs. One ,简称 OvO)、 “一对其余” (One vs. Rest ,简称 OvR) 和"多对多" (Many vs. Many,简称 MvM).
一对一
OvR 则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器.在测试时若仅有一个分类器预测为正类,则对应的类别标记作为最终分类结果,如图 3.4 所示.若有多个分类器预测为正类 则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果.
在这里插入图片描述
容易看出, OvR 只需训练N个分类器, OvO 需训练 N(N - 1)/2 个分类器 因此, OvO的存储开销和测试时间开销通常比 OvR 更大 。但在训练时,OvR 的每个分类器均使用全部训练样例,而 OvO 的每个分类器仅用到两个类的样例,因此,在类别很多时, OvO 的训练时间开销通常比 OvR 更小 ,至于预测性能则取决于具体的数据分布, 在多数情形下两者差不多.
MvM 是每次将若干个类作为正类,若干个其他类作为反类.显然, OvO和OvR是MvM 的特例. MvM 的正、反类构造必须有特殊的设计,不能随意选取.


六、类别不平衡问题

总结

提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值