因变量二分类资料的Probit回归分析

weixin_44755943

于 2024-04-25 22:22:59 发布

阅读量1.6k

点赞数 17

文章标签：分类回归数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44755943/article/details/138201337

版权

本文介绍了Logit回归和Probit回归的区别，它们分别基于logistic分布和正态分布处理二值因变量。Logit模型常用于解决线性概率模型的问题，而Probit模型提供类似但更精确的拟合。文章还通过员工离职案例展示了如何应用这两种方法及其边际效应分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归是研究因变量Y对自变量X的依赖关系。当因变量Y为二值定类变量时，我们通常会选择使用logit回归，实际上还有一种方法是Probit回归。这两个区别在于模型中随机扰动项的先验服从什么分布：如果是正态分布就是probit模型，若为logistic分布就是logit模型。

1 概述

1.1 背景介绍

一般情况下，在我们研究的回归模型中，都隐含的假定了因变量（Y）是定量的，而解释变量（X）是定量、定性（或虚拟变量）。

当因变量（Y）为二值定性的情况：比如一个家庭是否拥有一所住房，如拥有 Y=1，不拥有 Y=0，则被称为线性概率模型。

当因变量为二值时，X 与 Y 的关系如图中的点:

要预测的值y为期望

令

1.2 线性概率模型

若用线性概率模型拟合因变量时，则会存在以下问题：

由于 E(Yi / Xi) 度量给定 X 事件下 Y 发生的概率，因此概率必须落在0与1之间，LPM无法保证的估计值落在 0 与 1 之间；
对于给定的 X，Y = 0 或Y= 1，因此所有的 Y 值必须落在 X 轴或者 Y=1 的一条直线上。而线性模型则无法很好的模拟这样的散点。
线性回归模型假定 Y 估计值随 X 而线性增加，即 X 的边际或临界效应（X连续增加的每一单位中所得到的Y增量）一直保持不变（一般边际效用是递减的）。

1.3 Logit模型

标准累计 Logistic 分布的函数：

建立 logit 与线性回归的关系：

可变换为

可解决上述线性概率模型的问题，可以很好的进行拟合。

1.4 Probit模型

当回归中因变量取 0 或 1 时，很容易使用 CDF（累计分布函数）取建立回归模型。当选用 logistic 时，称为logit模型；选用正态分布函数时，则是profit模型。

Logit模型是Logistic函数的累积概率函数，同样的，正态函数记为 �

Probit 变换与 Probit 回归模型如下：

对应的累计概率函数，即标准正态分布的累积概率函数：

如下图

绿色曲线为Probit，红色曲线为Logit，可见Probit模型与Logit模型很相似，可用于解决上面的二分类问题。

1.5 极大似然法估计参数

个体（非群组）数据的 Probit 模型的极大似然估计，假设我们对给定个人收入 X 的情况下估计一个人拥有住房的概率感兴趣，我们还假定这个概率可由 Probit 函数表示：

我们不能实际观测Pi，只能观测到结果 Y=1(有房)和 Y=0（无房）。

每个Pi都是一个伯努利随机变量，所以可写成：

假设我们有一个 n 次观测的随机样本。令fi（Yi）表示Yi=1或 0 的概率，观测到 n 个 Y 值的联合概率，即f（Y1,...,Yn）为：

每个 Yi 都是独立的，而且有相同的 logistic 密度函数，所以可以将联合密度函数写成个别密度函数的乘积。

我们对（1）取对数，便得到对数似然函数LLF:

2 案例介绍

根据员工满意度、月均工作小时、工伤事故、薪资水平四个影响因素(自变量)研究员工是否离职。

● 对于连续自变量的边际效应值的意义为：该自变量每增加一个单位，带来因变量的概率上升或下降多少百分比。
● 对于哑变量化的0-1分类自变量的边际效应值意义为：该变量每升高一个单位（即分类水平从0变为1），发生因变量的概率上升或下降了多少百分比。

员工满意度显著性值为0.000***，水平上呈现显著性，拒绝原假设，因此员工满意度会对是否离职产生显著性影响，意味着员工满意度每增加一个单位，离职概率比不离职的几率增加或减少了62.581%。

5 注意事项

因变量 Y 是二分类变量
有至少1个自变量，自变量可以是连续变量，也可以是分类变量
每条观测间相互独立。分类变量（包括因变量和自变量）的分类必须全面且每一个分类间互斥
自变量之间无多重共线性
自变量中分类变量较多时，可考虑使用Logistic回归
当自变量中连续变量较多且符合正态分布时，使用Probit回归

weixin_44755943

博客等级

码龄6年

13
原创

318
点赞

671
收藏

196
粉丝

关注

私信

热门文章

分类专栏

计量经济学 1篇

最新评论

计量——中介变量、调节变量、协变量、控制变量、内生变量、外生变量
lvyoubohe: 如果中介变量检验的时候选取了控制变量中的一个变量，假定这一变量为a，那么在进行异质性检验的时候需要把a从控制变量里面删掉吗，还是说互不影响？
常用计量经济模型汇总/附案例教程
代码从脑子里流出来: 那个一阶差分序列的波动是在0.15上下波动吧🤔
Python 实现文本共现网络分析
CSDN-Ada助手: 恭喜您在博客上分享了如此有趣的主题！Python 实现文本共现网络分析是一个非常有趣而且实用的话题。希望您可以继续保持创作的热情，分享更多关于数据分析和编程的内容。或许下一步可以尝试探讨一些高级的数据分析技术，或者分享一些实用的数据可视化方法。期待看到您的下一篇博客！
空间数据挖掘常用的17种方法
CSDN-Ada助手: 非常棒的博客！你对空间数据挖掘的17种方法进行了很好的总结。这将对那些对空间数据分析感兴趣的读者非常有帮助。我鼓励你继续创作，分享更多有关数据挖掘的知识。除了你在标题和摘要中提到的方法外，还有一些扩展知识和技能也值得一提。比如，你可以介绍一下数据预处理的重要性，如数据清洗、特征选择和降维等。此外，对于空间数据挖掘来说，地理信息系统（GIS）和空间统计学也是非常重要的基础知识。希望我的建议对你有所帮助，期待看到更多精彩的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
地理探测器(GeoDetector)原理及其实现
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题中的"地理探测器(GeoDetector)原理及其实现"听起来非常有趣。我很期待阅读您的博文，了解更多关于这个地理探测器的工作原理和实现方法。您的持续创作令人印象深刻，希望您能继续分享更多关于地理探测器的知识。如果可以的话，我建议您在接下来的博客中可以探讨一下地理探测器的应用领域，或者分享一些实际案例，这样读者能更好地了解它在现实中的应用价值。再次恭喜您，并期待您的下一篇博文！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。