对于二分类模型,我们将介绍逻辑回归(logistic regression)
和
Fisher
线性判别分析两种分类算法
1.逻辑回归(logistic regression)
对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。
把
y
看成事件发生的概率,
y≥0.5
表示发生;
y<0.5
表示不发生
1.运用极大似然估计算出、、
![](https://i-blog.csdnimg.cn/blog_migrate/e7a17e608b432fdd99f1e14be9682ff2.png)
![](https://i-blog.csdnimg.cn/blog_migrate/aedbdcfa643fae720ef76b3f386a7e51.png)
2.再算出yi
![](https://i-blog.csdnimg.cn/blog_migrate/2ab4049c7abcb298297f9d779f70a012.png)
当预测结果较差时,在
logistic
回归模型中加入平方项、交互项等。
如:
![](https://i-blog.csdnimg.cn/blog_migrate/f10919b1575cb40eed39aef3b991ede4.png)
虽然可以提高预测准确率,
但是容易发生过拟合的现象,以及显著性下降
过拟合现象:
对于样本数据的预测非常好,但是对于样本外
的数据的预测效果可能会很差。与龙格现象类似。
2.Fisher线性判别分析
该方法思想比较简单
:
给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。
![](https://i-blog.csdnimg.cn/blog_migrate/e7339d0716c949b903d56dfa7ed7393d.png)
Fisher判别分析不仅能用于二分类,还可用于多分类