优势比和最大似然

紫色蜘蛛爬啊爬

已于 2024-01-26 00:42:12 修改

阅读量1.3k

点赞数 24

分类专栏：数据分析文章标签：概率论算法机器学习数据分析

于 2024-01-25 10:03:37 首次发布

本文链接：https://blog.csdn.net/zzphapy/article/details/135836876

版权

数据分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了优势比作为一种描述分类变量间关系的方法，通过实例说明其计算方式。同时，讲解了最大似然估计的概念及其在估计未知参数时的应用，如分析熬夜与肥胖的相关性，并通过实际例子演示了如何使用最大似然估计求解问题。

摘要由CSDN通过智能技术生成

1. 优势比 odds ratio

1.1 什么是优势比

优势比(odds ratio；OR)是一种描述概率的方式，用于反映分类变量之间的相关性。

优势：设定p为事件发生的概率，则发生的优势为，odds= p/1-p。
优势比：p1为事件1发生的概率，p2为事件2发生的可能/概率，

优势比为odds ratio= (p1/(1-p1)) /(p2/(1-p2))

可以理解为事件1发生的概率相较于事件2发生概率的比值。

1.2举例和公式

问题：熬夜和肥胖是否相关？

数据：身材胖/瘦人群，分别统计熬夜人群和不熬夜人群和结构

是否熬夜/身材	胖	瘦
熬夜	25	19
不熬夜	15	21

胖子人群熬夜的优势= （25/(25+15) ） / （1-25/(25+15) ）=25/15= 1.67
瘦子人群熬夜的优势= （19/(19+21) ） / （1-19/(19+21) ）=19/21= 0.9
则胖子熬夜的概率/ 瘦子熬夜的概率 = 胖瘦和熬夜的优势比 = 1.67/0.9 =1.86>1

结论：

OR = 1，胖瘦与熬夜没有相关性；
OR > 1，熬夜会增加肥胖概率；
OR < 1，熬夜会降低肥胖概率；

2. 最大似然估计

2.1 似然和概率

我们常常用概率(Probability) 来描述一个事件发生的可能性。

而似然性(Likelihood) 正好反过来，意思是一个事件实际已经发生了，反推在什么参数条件下，这个事件发生的概率最大。

用数学公式来表达上述意思，就是:

已知参数 θ 前提下，预测某事件 x 发生的条件概率为 P(x|θ) ;
已知某个已发生的事件 x，未知参数 θ 的似然函数为 L(θ|x)；
上面两个值相等，即: P(x|θ)=L(θ|x)。需要说明的是两者在数值上相等，但是意义并不相同，一个是关于 θ 的函数，一个是关于 x 的函数，两者从不同的角度描述一件事情。

2.2 最大似然估计的概念

最大似然估计（Maximum Likelihood Estimate）的目的就是：利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。

当我们已知事件x发生后，从θ1,θ2,⋯,θn中找出哪一个 θ 参数使的似然函数的值到达了最大值，说明在这个参数下最有可能发生x事件，即这个参数最合理。

2.3 举例和公式

假设一个袋子装有白球与红球，比例未知，现在抽取10次（每次抽完都放回，保证事件独立性），假设抽到了7次白球和3次红球，在此数据样本条件下，估计袋子中白球和红球的比例。大家会猜比例是7：3。

利用已知的样本结果，反推最有可能（最大概率）导致这样结果的参数值。就是采用最大似然估计法求解袋子中白球的比例。

我们已知：

样本空间D={x1,x2...,xn}为本次实验的样本空间；
白球出现的概率为θ；
红球出现的概率为1-θ。

概率函数P(x1,x2...,xn|θ)称为对于样本空间D的θ的似然函数。

如果 $\hat{\Theta }$ 是参数空间中能使似然函数L(θ)最大的θ值，则 $\hat{\Theta }$ 应该是“最可能”的参数值，那么 $\hat{\Theta }$ 就是θ的极大似然估计量，记作。

解本案例如下：

取一次的概率函数为(取到白球时x=1，红球时x=0)：
令模型M=f(x;θ)
本次事件的概率为：

(为什么多此一举用M转换一次？只是为了让我理解网上很多资料里面的公式推导，这里的M可以是线性概率密度函数，也可以是正态分布函数等等。)

本次事件发生的概率为:
令函数值最大，就是对函数求导，并且令导函数等于0.

求解得到结果 θ=0.7

2.4 最大似然估计求解过程

由上可知最大似然估计的一般求解过程：

1）写出似然函数；
2）对似然函数取对数，并整理；
3）求导数；
4）解似然方程。

参考文档：

优势比和Logistics：大厂数据分析高频面试-逻辑回归和优势比1

最大似然：极大似然估计详解，写的太好了！_极大似然估计函数-CSDN博客

最大似然估计：详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解-CSDN博客

优势比：如何理解Logistic回归输出的OR值 - 知乎

紫色蜘蛛爬啊爬

关注

24
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
优势比和最大似然

1. 优势比 odds ratio1.1 什么是优势比优势比(odds ratio；OR)是一种描述概率的方式，用于反映分类变量之间的相关性。优势：设定p为事件发生的概率，则发生的优势为，odds= p/1-p。优势比：p1为事件1发生的概率，p2为事件2发生的可能/概率，优势比为odds ratio= (p1/(1-p1)) /(p2/(1-p2))可以理解为事件1发生的概率相较于事件2发生概率的比值。
复制链接

扫一扫