逻辑回归（logistics regression）

最新推荐文章于 2023-09-04 11:08:30 发布

Metaphor丶

最新推荐文章于 2023-09-04 11:08:30 发布

阅读量936

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43970882/article/details/104910001

版权

机器学习专栏收录该内容

10 篇文章 0 订阅

订阅专栏

目录：
1、逻辑回归是什么
2、逻辑回归的预测函数
3、决策边界
4、损失函数
5、损失函数的简化与梯度下降
6、多元分类下的逻辑回归算法
7、过拟合问题和正则化

1.逻辑回归是什么

回顾之前的线性回归，可以发现线性回归对于连续值的预测效果不错，但是对于离散值而言，线性回归很难预测，例如，判断一个肿瘤是否是良性的，结果只有 YES/NO 两种答案，用数字表示为0和1，逻辑回归就是为了处理分类问题而诞生的。

2.逻辑回归的预测函数

为了处理分类问题，逻辑回归的算法和线性回归的算法是不一致的，不一致的原因如下：

如果使用线性回归的算法预测分类问题：
假设肿瘤大小与肿瘤性质相关，肿瘤大小越大，是恶性肿瘤的可能性越高。
使用线性回归预测，如下图所示：
线性回归分类
假设我们取y轴的阈值为0.5，即越大于0.5时越可能是恶性肿瘤。从上图看好像预测结果并没有什么问题，但是假如此刻有一个离群值：

可以看到，当出现离群值的时候会对预测结果产生很大影响。
所以用线性回归的方法来进行逻辑回归是不行的。
要进行逻辑回归，首先我们想要把y的结果固定在0和1之间，这样在进行离散值预测的时候才更容易判定取值为0还是1。所以此时选定一种函数，叫做sigmoid函数，它是一种s型函数，取值范围为(0,1)，可以将一个实数映射到(0,1)的区间，刚好符合所有要求。
sigmod函数如下公式定义：
sigmoid
图像如下图所示：
sigmoid plt
通过图像可以看到，当x越大，y越趋近于1，当x越小，y越趋近于0，当x=0时，y=0.5。
结合sigmoid函数公式定义，逻辑回归的预测函数为：

3.决策边界

为了更好的对预测结果进行分类（0,1），我们可以规定预测函数结果的输出如下：
h_θ(x) >= 0.5 → y = 1
h_θ(x) < 0.5 → y = 0
从sigmoid的公式定义中可以看出，当x=0时，e^-x=1，S(x)=1/2，即 -θ^TX=0时刚好在分界点y=0.5处，推导可知
-θ^TX >= 0 → y = 1
-θ^TX < 0 → y = 0
所谓决策边界就是能够把样本正确分类的一条边界，主要有线性决策边界(linear decision boundaries)和非线性决策边界(non-linear decision boundaries)。
线性决策边界：
linear
非线性决策边界：

可以看到，可以通过添加多项式来改变决策边界的形状。

4.损失函数

逻辑回归的损失函数是根据最大似然估计算法得出的，具体为什么采用最大似然估计请参考逻辑回归损失函数为什么使用最大似然估计而不用最小二乘法？
可以得出损失函数的定义如下：
cost
函数图像如下：
当y=1时，如果预测结果h_θ（x）越接近真实结果1，惩罚越小，反之越接近错误结果0，惩罚越大。
y=1
当y=0时，如果预测结果h_θ（x）越接近真实结果0，惩罚越小，反之越接近错误结果1，惩罚越大。
y=0

5.损失函数的简化与梯度下降

由于逻辑回归的定义可知，y的取值只有0和1两个值，所以可简化损失函数如下：

推导过程可参考逻辑回归损失函数推导及求导。
由梯度下降法的定义可知，

对J(θ)求偏导的过程如下：
偏导数推理过程
可以看到逻辑回归的梯度下降法最终的公式的形式和线性回归的格式看似是一样的，但是由于h_θ(x)的定义发生了变化，内容实际上是不一样的。

6、多元分类下的逻辑回归算法

有时的分类问题不仅仅只有是/否（0/1）两个类别，例如星座有12个，可以看成类别是1~12个类别。
由于概率函数 hΘ(X) 所表示的是样本标记为某一类型的概率，但可以将一对一（二分类）扩展为一对多（one-vs-all）：
1.将类型class1看作正样本，其他类型全部看作负样本，然后我们就可以得到样本标记类型为该类型的概率p1；
2.然后再将另外类型class2看作正样本，其他类型全部看作负样本，同理得到p2；
3.以此循环，我们可以得到该待预测样本的标记类型分别为类型class i时的概率pi，最后我们取pi中最大的那个概率对应的样本标记类型作为我们的待预测样本类型。
如下图所示：

7.过拟合问题和正则化

过拟合与正则化
 机器学习笔记4 正则化
 解决过拟合的方式（一）：正则化
正则化实际上是加入了一个正则化的项，超参数λ的值越大，对于各参数θ的惩罚越大，可能会最终导致欠拟合，反之，超参数λ的值越小，对于各参数θ的惩罚越小，可能对于过拟合问题的改善程度有限。

Metaphor丶

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归（logistics regression）

目录：1、逻辑回归是什么2、逻辑回归的预测函数3、决策边界4、损失函数5、损失函数的简化与梯度下降6、多元分类下的逻辑回归算法1.逻辑回归是什么回顾之前的线性回归，可以发现线性回归对于连续值的预测效果不错，但是对于离散值而言，线性回归很难预测，例如，判断一个肿瘤是否是良性的，结果只有 YES/NO 两种答案，用数字表示为0和1，逻辑回归就是为了处理分类问题而诞生的。2.逻辑回归的...
复制链接

扫一扫

专栏目录