统计学习导论 Chapter4--Classification

最新推荐文章于 2023-07-27 14:09:27 发布

O天涯海阁O

最新推荐文章于 2023-07-27 14:09:27 发布

阅读量1.2k

点赞数 1

分类专栏：统计学习导论

本文链接：https://blog.csdn.net/zhangjunhit/article/details/78612028

版权

统计学习导论专栏收录该内容

5 篇文章 6 订阅

订阅专栏

Book: An Introduction to Statistical Learning
with Applications in R
http://www-bcf.usc.edu/~gareth/ISL/

这一章主要介绍了一些分类问题，当输出响应变量是 qualitative，例如 eye color is qualitative, taking on values blue, brown, or green.
Often qualitative variables are referred to as categorical

本章主要关注三个经典的分类方法：logistic regression, linear discriminant analysis, and K-nearest neighbors

4.2 Why Not Linear Regression?
为什么不用线性回归方法来处理分类问题了？主要是线性回归方法的输出不能和分类问题的类别建立有效的对应关系。
1）当我们改变输出类别的标记数，就会得到不同的线性回归模型，下面两个 Y 就会得到不同的回归模型
这里写图片描述

2）如果我们使用 1；2；3 表示三个类别，使用线性回归方法的输出是 100，我们不知道其对应哪个类别

4.3 Logistic Regression
我们该如何对 p(X) = Pr(Y = 1|X) 和 X 这两个变量的关系进行建模了？（这里我们使用 0/1 表示输出类别），在 Section 4.2 我们说使用一个线性回归模型来表示这些概率：
这里写图片描述
我们使用这个线性模型得到的结果有时会超出【0~1】的范围，These predictions are not sensible，所以我们需要避免这个问题，我们应该使用一个函数来建模 p(X)，其对任何X 的输出都会在 0和1 之间，很多函数都可以满足这个要求。对于logistic regression 来说，我们使用 logistic function
这里写图片描述
为了拟合上述模型，我们使用 maximum likelihood 方法，后面我们会介绍该方法。

接着介绍了两个概念 odds 和 log-odds or logit
odds：
这里写图片描述

log-odds or logit：
这里写图片描述

4.3.2 Estimating the Regression Coefficients
公式（4.2）中的参数 β0 和 β1 是未知的，必须通过训练数据来估计。这里我们介绍 maximum likelihood 方法，最大似然方法用于 logistic regression model 拟合背后的 intuition 是：我们寻找这样的 β0 和 β1，它们能够使得我们观测到每个数据的 predicted probability 尽可能的符合default status。就是对每个观测的数据预测的类别都很接近真值，用估计的 β0 和 β1 对应的模型可能很好的拟合所有的训练数据。这个intuition 可以使用一个似然函数表示 likelihood function
这里写图片描述
Maximum likelihood 是一种常用的拟合非线性模型的方法，在linear regression setting，least squares 方法可以看作 maximum likelihood 的一个特殊情况。模型的拟合可以通过统计软件包里的相关函数很容易实现，所以我们不需要关注其拟合细节。

4.3.3 Making Predictions
we predict that the default probability for an individual with a balance of $1,000 is
这里写图片描述

4.3.4 Multiple Logistic Regression
这里写图片描述

4.3.5 Logistic Regression for > 2 Response Classes
多类别分类我们也可以使用逻辑回归方法来处理，但是实际中更常用的方法是 Linear Discriminant Analysis，这就是下面我们要介绍的。

O天涯海阁O

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
统计学习导论 Chapter4--Classification

Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/这一章主要介绍了一些分类问题，当输出响应变量是 qualitative，例如 eye color is qualitative, taking o
复制链接

扫一扫