分类学习
应用最广泛的三种分类模型:logistic regression, linear discriminant analysis(LDA), K-nearest neighbor(KNN)
其他数据密集型计算方法:广义可加模型,树方法、随机森林、提升法,支持向量机。
1 分类问题概述
以Default数据集为例,研究基于一个人年收入(income)和月信用卡余额(balance)预测其违约状态。
学习:通过建立模型,使用任意给定的余额变量(balance-X1)和年收入(income-X2)来预测违约状态(default-Y)。
2 为什么线性回归不可用
对于二元定性响应变量,最小二乘回归是有意义的,可以使用哑变量进行0/1编码,即使调换编码顺序,线性回归仍会产生相同的预测。
通常,不能将一个定性变量自然地转化成两水平以上的定量变量来建立线性回归模型,其线性回归产生的估计实际上是 P r ( Y = Y j ∣ X ) Pr(Y=Y_{j}|X) Pr(Y=Yj∣X)的估计。编码的不同,导致产生的结果也不同。
3 logistic回归(二分类)
logistic回归是对 Y Y Y属于某一类的概率建模而不直接对响应变量 Y Y Y建模。
Pr ( \operatorname{Pr}( Pr( default = = = Yes ∣ \mid ∣ balance ) ) ),记为 p ( b a l a n c e ) p(balance) p(balance),取值范围为0-1,任意给定balance值,根据概率对default预测。
3.1 logistic模型
logistic函数: p ( X ) = ϵ β 0 + β 1 X 1 + ϵ β 0 + β 1 X p(X)=\frac{\epsilon^{\beta_{0}+\beta_{1} X}}{1+\epsilon^{\beta_{0}+\beta_{1} X}} p(X)=1+ϵβ0+β1Xϵβ0+β1X
整理得
p ( X ) 1 − p ( X ) = e β 0 + β 1 X \frac{p(X)}{1-p(X)}=e^{\beta_{0}+\beta_{1} X} 1−p(X)p(X)=eβ0+β1X
p ( X ) 1 − p ( X ) \frac{p(X)}{1-p(X)} 1−p(