统计学习导论(四)分类学习笔记

本文介绍了分类问题,探讨了为何线性回归不适用于分类任务,详细阐述了logistic回归、线性判别分析(LDA)的概念与应用,并与KNN方法进行了比较。通过R语言实现相关模型,展示了分类模型的实践操作。
摘要由CSDN通过智能技术生成

应用最广泛的三种分类模型:logistic regression, linear discriminant analysis(LDA), K-nearest neighbor(KNN)
其他数据密集型计算方法:广义可加模型,树方法、随机森林、提升法,支持向量机。

1 分类问题概述

以Default数据集为例,研究基于一个人年收入(income)和月信用卡余额(balance)预测其违约状态。
学习:通过建立模型,使用任意给定的余额变量(balance-X1)和年收入(income-X2)来预测违约状态(default-Y)。

2 为什么线性回归不可用

对于二元定性响应变量,最小二乘回归是有意义的,可以使用哑变量进行0/1编码,即使调换编码顺序,线性回归仍会产生相同的预测。
通常,不能将一个定性变量自然地转化成两水平以上的定量变量来建立线性回归模型,其线性回归产生的估计实际上是 P r ( Y = Y j ∣ X ) Pr(Y=Y_{j}|X) Pr(Y=YjX)的估计。编码的不同,导致产生的结果也不同。

3 logistic回归(二分类)

logistic回归是对 Y Y Y属于某一类的概率建模而不直接对响应变量 Y Y Y建模。
Pr ⁡ ( \operatorname{Pr}( Pr( default = = = Yes ∣ \mid balance ) ) ),记为 p ( b a l a n c e ) p(balance) p(balance),取值范围为0-1,任意给定balance值,根据概率对default预测。

3.1 logistic模型

logistic函数: p ( X ) = ϵ β 0 + β 1 X 1 + ϵ β 0 + β 1 X p(X)=\frac{\epsilon^{\beta_{0}+\beta_{1} X}}{1+\epsilon^{\beta_{0}+\beta_{1} X}} p(X)=1+ϵβ0+β1Xϵβ0+β1X
整理得
p ( X ) 1 − p ( X ) = e β 0 + β 1 X \frac{p(X)}{1-p(X)}=e^{\beta_{0}+\beta_{1} X} 1p(X)p(X)=eβ0+β1X
p ( X ) 1 − p ( X ) \frac{p(X)}{1-p(X)} 1p(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

鸭鸭鸭鸭鸭鸭

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值