线性回归
1、单一属性线性回归
单一属性的线性回归目标:
-
最小二乘法
2、 多元线性回归
-
线性模型的一般形式
-
最小二乘法
3、 线性模型的特点
形式简单、易于建模,可解释性强,是非线性模型的基础。
对异常点鲁棒性差。
线性并不指对输入变量的线性,而是指对参数空间的线性。对于输入来说,可以对先对其进行非线性变换,再进行线性组合。从这个角度来说,线性模型完全具有描述非线性的能力。
Logistic回归
-
二分类任务
-
单位阶跃函数:不连续
预测值大于零就判为正例,小于零就判为反例,预测值为临界值零则可任意判别
-
对数几率函数:单调可微、任意阶可导
-
对数几率
-
极大似然法
化简可得:
-
推导(南瓜书)
2. 对数几率回归优点
线性判别分析(LDA)
-
思想
欲使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小。
欲使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大。
2. 二分类任务
3. 多分类任务
多分类学习
-
一对一
对N个类别两两配对,得到N(N-1)/2 个二类任务,训练出N(N-1)/2 个二类分类器。
把新样本提交给所有分类器预测,得到N(N-1)/2 个分类结果。
投票产生最终分类结果,被预测最多的类别为最终类别。
2. 一对其余
将某一类作为正例,其他反例,得到N 个二类任务,学习出N 个二类分类器。
新样本提交给所有分类器预测,得到N 个分类结果。
比较各分类器预测置信度,置信度最大类别作为最终类别。
3. 两种策略比较
OvO的存储开销和测试时间开销通常比OvR大:OvR只需训练N个分类器,而OvO需训练N(N-1)/2个分类器。
类别多时,OvO的训练时间开销通常比OvR小:训练时,OvR的每个分类器均使用全部训练样本,而OvO的每个分类器仅用到两个类样本
预测性能差不多:至于预测性能,则取决于具体的数据分布,在多数情形下两者差不多。
4. 多对多
●编码:对N个类别做M次划分,每次划分将一部分类别划为正类,一部分划为反类,从而形成一个二分类训练集;这样一共产生 M 个训练集,可训练出 M 个分类器。
●解码: M 个分类器分别对测试样本进行预测,这些预测标记组成一个编码。将这个预测编码与每个类别各自的编码进行比较,返回其中距离最小的类别作为最终预测结果。
ECOC编码对分类器错误有一定容忍和修正能力,编码越长、纠错能力越强。对同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,则纠错能力越强。
类别不平衡问题
不同类别训练样例数相差很大情况(正类为小类)
-
欠采样:去除一些反例使正反例数目接近
-
过采样:增加一些正例使正反例数目接近
-
阈值移动
文章介绍了线性回归的单属性和多元形式,强调了其对异常点的敏感性以及通过非线性变换处理非线性问题的能力。接着讨论了Logistic回归在二分类任务中的应用,包括对数几率函数和极大似然估计。线性判别分析(LDA)的思想也被提及,用于两类和多类任务。文章还对比了一对一和一对多的多分类策略,并介绍了ECOC编码在处理多对多分类问题中的纠错能力。最后,提到了类别不平衡问题及其解决方案,如欠采样、过采样和阈值移动。
1753

被折叠的 条评论
为什么被折叠?



