sklearn之logistic回归

栖林_

于 2024-05-28 13:54:26 发布

阅读量636

点赞数 10

分类专栏：机器学习文章标签： sklearn 回归人工智能 logistics regression

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ye_yumo/article/details/139265069

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

- logistic回归
- - logit

logistic回归

logistic regression被称之为logistic回归，对于logistic这个单词来说，他本身的翻译其实不太容易，比较有名的译法是对数几率回归，我也认为这种译法是比较合适的，虽然并非logistic的本意，但却是最贴切这个算法本身的译法

regression的意思是回归，但其实这个算法是一种分类算法

回到我们讲线性回归的时候，主要是对指数本身进行预测，但是想要更实用的话，我们其实更希望知道涨跌的情况，那其实这样的输出值就只有两类，涨或者跌，也就是二分类问题

这种情况其实非常常见，例如销售额和顾客买不买之间的问题，播放量和用户会不会点击的问题

但问题在于，我们统计出来的样本特征往往是一个连续的实数值，而目标则是一个0或1的问题，那么我们简单的线性回归模型就会失效，难以再进行有效的预测

如果直接拟合比较困难，那我们可以将输出值变化一下，从一个非0即1的问题变成涨跌的概率问题，那么概率是连续值，我们就又回到了从连续值到连续值的映射，这似乎就还是回归的内容

那我们给出一个阈值（ $\theta$ ），当概率大于阈值时，认为涨的可能性大，当概率小于阈值时，认为跌的可能性大

用最直觉的想法，就是涨的概率大于不涨的概率就可以了，那么我们就可以设涨的概率是 $P$ ，不涨的概率就是 $1 - P$

当 $\frac{P}{1-P}>1$ 时，就可以认为涨的可能性大

这个公式其实就是odds几率，接下来我们需要把观察的连续值和输出的连续值用数学模型联系起来

需要知道的是，假设 $x$ 表示事件涨， $P (x)$ 表示涨的概率，他的值域是就是 $[0, 1]$ ，然后我们通过几率的运算，其实得到的就是 $o dd s (x)$ ，他的值域就变成了 $[0,+\infty)$ （因为 $odds(x)=\frac{P(x)}{1-P(x)}$ 且 $P (x)$ 的范围是 $[0, 1]$ ）

logit

odds是几率，他在数学上的定义就是事件发生的概率比事件不发生的概率

logit其实就是给一个数取对数，我们接下来的操作是要给几率取对数，为什么呢

如果不取对数的话odds(x)的值域只有非负的部分，并不满足我们映射到全体实数的需求，因此我们对其再取对数即可，通常我们会取自然对数，并且用z表示logit(odds(x))

$z=\ln(\frac{P(x)}{1-P(x)})$

需要注意的是这里的小写z本质上仍然是几率，或者说是直接与几率相关的

那我们就可以轻松的反推出概率P的值 $P=\frac{e^z}{1+e^z}$

然后再对这个式子做简单的变化，积分，就可以求出他的概率分布函数 $P(Z\leq z)=\frac{1}{1+e^z}$

这里的大写Z表示的就是随机变量，取值为实数

这个公式称之为sigmoid函数，logistic函数，具有单调增，处处可导的性质

这个函数可以将任意实数的值映射到0到1之间，这个特性对于解决二分类问题十分重要，阈值也就可以在这里面选了

关注

10
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
sklearn之logistic回归

logistic regression被称之为logistic回归，对于logistic这个单词来说，他本身的翻译其实不太容易，比较有名的译法是对数几率回归，我也认为这种译法是比较合适的，虽然并非logistic的本意，但却是最贴切这个算法本身的译法。如果直接拟合比较困难，那我们可以将输出值变化一下，从一个非0即1的问题变成涨跌的概率问题，那么概率是连续值，我们就又回到了从连续值到连续值的映射，这似乎就还是回归的内容。用最直觉的想法，就是涨的概率大于不涨的概率就可以了，那么我们就可以设涨的概率是。
复制链接

扫一扫

专栏目录

栖林_ CSDN认证博客专家 CSDN认证企业博客

码龄2年

129: 原创

104万+: 周排名

1万+: 总排名

9万+: 访问

: 等级

3295: 积分

1548: 粉丝

1970: 获赞

39: 评论

1822: 收藏

私信

关注

热门文章

分类专栏

C++ 34篇
机器学习 7篇
数据结构 7篇
MyLisp项目 7篇
大语言模型 2篇
HTML 4篇
MySQL 6篇
算法进阶 40篇
Python 16篇
Linux 6篇
C语言 5篇

最新评论

MyLisp项目日志：函数
CSDN-Ada助手: Java 技能树或许可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
MySQL之数据库DDL
栖林_: 这个我还没学诶
MySQL之数据库DDL
Darling &you&: 磊哥，下一期讲一下虚拟机
每日算法打卡：激光炸弹 day 8
栖林_: 因为枚举的是正方形区域的右下角那个点的位置，正方形边长是R，右下角的坐标就是R，R
每日算法打卡：激光炸弹 day 8
xx1mika: 请问为什么要从r开始枚举最后一步

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

栖林_ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。