统计学习导论（四）分类学习笔记

最新推荐文章于 2022-03-25 17:03:17 发布

鸭鸭鸭鸭鸭鸭

最新推荐文章于 2022-03-25 17:03:17 发布

阅读量1.4k

点赞数 2

分类专栏：统计学习导论文章标签：机器学习统计学统计模型 r语言数据分析

本文链接：https://blog.csdn.net/weixin_52547939/article/details/118360634

版权

本文介绍了分类问题，探讨了为何线性回归不适用于分类任务，详细阐述了logistic回归、线性判别分析（LDA）的概念与应用，并与KNN方法进行了比较。通过R语言实现相关模型，展示了分类模型的实践操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

应用最广泛的三种分类模型：logistic regression, linear discriminant analysis(LDA), K-nearest neighbor(KNN)
其他数据密集型计算方法：广义可加模型，树方法、随机森林、提升法，支持向量机。

1 分类问题概述

以Default数据集为例，研究基于一个人年收入（income）和月信用卡余额（balance）预测其违约状态。
学习：通过建立模型，使用任意给定的余额变量（balance-X1）和年收入（income-X2）来预测违约状态（default-Y）。

2 为什么线性回归不可用

对于二元定性响应变量，最小二乘回归是有意义的，可以使用哑变量进行0/1编码，即使调换编码顺序，线性回归仍会产生相同的预测。
通常，不能将一个定性变量自然地转化成两水平以上的定量变量来建立线性回归模型，其线性回归产生的估计实际上是 $Pr(Y=Y_{j}|X)$ 的估计。编码的不同，导致产生的结果也不同。

3 logistic回归（二分类）

logistic回归是对 $Y$ 属于某一类的概率建模而不直接对响应变量 $Y$ 建模。
$\operatorname{Pr}($ default $=$ Yes $\mid$ balance $)$ ，记为 $p (b a l a n c e)$ ，取值范围为0-1，任意给定balance值，根据概率对default预测。

3.1 logistic模型

logistic函数： $p(X)=\frac{\epsilon^{\beta_{0}+\beta_{1} X}}{1+\epsilon^{\beta_{0}+\beta_{1} X}}$
整理得
$\frac{p(X)}{1-p(X)}=e^{\beta_{0}+\beta_{1} X}$
$\frac{p(X)}{1-p(X)}$