单变量连续概率分布的介绍及Python运用

最新推荐文章于 2022-07-03 15:21:19 发布

antiemperor

最新推荐文章于 2022-07-03 15:21:19 发布

阅读量668

点赞数

分类专栏： python 文章标签： python 概率论统计学概率分布

本文链接：https://blog.csdn.net/weixin_44607126/article/details/107803845

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

连续概率分布即连续型随机变量的概率分布，是概率论中的主要研究内容。下面介绍几种常见的单变量连续概率分布及Python运用

一、均匀分布

连续型均匀分布是指在支撑内各个点的概率密度均相等的分布

符号： U(a,b)

概率密度函数： $f(x)=\frac{1}{b-a}$

期望： $EX=\int_{a}^{b}x/(b-a)dx=\frac{a+b}{2}$

方差： $Var(X)=EX^2-(EX)^2=\int_{a}^{b}x^2/(b-a)dx-(\frac{a+b}{2})^2=\frac{(b-a)^2}{12}$

二、正态分布

正态分布是样本均值分布在样本量趋于无穷时的分布

符号： $N(\mu ,\sigma ^2)$

概率密度函数： $f(x)=\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu)^2}{2\sigma^2}]$

期望： $EX=\int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu)^2}{2\sigma^2}]dx$

$=\int_{-\infty}^{\infty}\frac{x-\mu}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu)^2}{2\sigma^2}]dx+\mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi }\sigma }exp[-\frac{(x-\mu)^2}{2\sigma^2}]dx=\mu$

加号左边的被积函数关于 $\mu$ 对称，因此为0。加号右边的被积函数即概率密度函数，积分为 1

方差：直接求正态分布的方差有些麻烦，下面先求标准正态分布 N(0, 1) 的方差

$Var(X)=EX^2-(EX)^2=\frac{1}{\sqrt{2\pi }}\int_{-\infty}^{\infty}x^2exp(-\frac{x^2}{2})dx=-\frac{2}{\sqrt{2\pi }}\int_{0}^{\infty}xde^{-\frac{x^2}{2}}$ ，分部积分得

$\frac{2}{\sqrt{2\pi }}\int_{0}^{\infty}e^{-\frac{x^2}{2}}dx=\frac{1}{\sqrt{2\pi }}\sqrt{\int_{0}^{\infty}\int_{0}^{\infty}exp(-\frac{x^2}{2}-\frac{y^2}{2})dxdy}$ ，作极坐标变换得

$=\frac{1}{\sqrt{2\pi }}\sqrt{\int_{0}^{2\pi }\int_{0}^{\infty}exp(-\frac{r^2}{2})rdrd\theta }=1$

对于正态分布 $X\sim N(\mu ,\sigma ^2)$ ， $Var(\frac{X-\mu}{\sigma })=1$ ，因此 $Var(X)=\sigma ^2$

性质：线性变换：设 $u\sim N(0 ,1)$ 的标准正态分布，则 $X=\mu +\sigma u\sim N(\mu, \sigma^2)$

不相关可以推导出独立： $X\sim N(\mu ,\sigma ^2)$ ， $Y\sim N(\mu ,\sigma ^2)$ ，X 与 Y 不相关，则 X 与 Y 独立

三、伽玛分布

伽玛分布是一个神奇的分布，跟各种分布都有千丝万缕的联系，指数分布与卡方分布都是特殊的伽玛分布

符号： $Ga(\alpha ,\lambda )$

在介绍伽玛分布的概率密度函数前要先介绍伽玛函数： $\Gamma (\alpha )=\int_{0}^{\infty}x^{\alpha -1}e^{-x}dx$

对伽玛函数分部积分可得递推公式： $\Gamma (\alpha +1)=\alpha \Gamma (\alpha )$ ，又 $\Gamma (1)=1$

所以当 $\alpha$ 为整数时， $\Gamma (\alpha +1)=\alpha !$

概率密度函数：对伽玛函数等式两边进行变形得到： $1=\int_{0}^{\infty}x^{\alpha -1}e^{-x}dx/\Gamma (\alpha )$

设 $x=\lambda t$ ，有 $1=\int_{0}^{\infty}\lambda ^{\alpha -1}t ^{\alpha -1}e^{-\lambda t}\lambda dt/\Gamma (\alpha )=\int_{0}^{\infty}\lambda ^{\alpha}t ^{\alpha -1}e^{-\lambda t} dt/\Gamma (\alpha )$ ，被积函数即伽玛分布的概率密度函数

$f(x)=\frac{\lambda ^{\alpha}}{\Gamma (\alpha )}x ^{\alpha -1}e^{-\lambda x}$

期望： $EX=\int_{0}^{\infty}\frac{\lambda ^{\alpha}}{\Gamma (\alpha )}x ^{\alpha }e^{-\lambda x}dx=\int_{0}^{\infty}\frac{\lambda ^{\alpha+1}}{\Gamma (\alpha +1)}x ^{\alpha }e^{-\lambda x}dx*\frac{\alpha }{\lambda }=\frac{\alpha }{\lambda }$

方差： $Var(X)=EX^2-(EX)^2=\int_{0}^{\infty}\frac{\lambda ^{\alpha}}{\Gamma (\alpha )}x ^{\alpha +2}e^{-\lambda x}dx-(\frac{\alpha }{\lambda })^2$

$\int_{0}^{\infty}\frac{\lambda ^{\alpha+2}}{\Gamma (\alpha +2)}x ^{\alpha +2}e^{-\lambda x}dx*\frac{\alpha (\alpha +1)}{\lambda ^2}-(\frac{\alpha }{\lambda })^2=\frac{\alpha }{\lambda ^2}$

技巧是揍 $Ga(\alpha+1 ,\lambda )$ 与 $Ga(\alpha+2 ,\lambda )$ 的概率密度函数，再用伽玛函数的性质

性质：可加性：若 $X\sim Ga(\alpha ,\lambda ),Y\sim Ga(\beta,\lambda )$ 且 X 与 Y 独立，则 $Z=X+Y \sim Ga(\alpha +\beta,\lambda )$

四、指数分布

指数分布是支撑为非负数且满足无记忆性的分布。所谓无记忆性，指 P(X>a+b|X>b)=P(X>a)

指数分布 $Exp(\lambda )$ 即 $Ga(1 ,\lambda )$

符号： $Exp(\lambda )$

概率密度函数：由无记忆性条件得： P(X>a+b)=P(X>a)P(X>b) ，用积累分布函数表示为

[1-F(a+b)]=[1-F(a)][1-F(b)] ，对 a 求偏导得

-f(a+b)=-f(a)[1-F(b)] ，对 b 求偏导得

$-f^{'}(a+b)=f(a)f(b)$ ，不妨取 b=0 有

$-f^{'}(a)=f(a)f(0)$ ，记 f(0) 为 $\lambda$ ，解微分方程得

$f(a)=Ce^{-\lambda a}$ ，C 为常数

又 f(a) 为概率密度函数，其在支撑上的积分为 1，解得 C= $\lambda$ ，因此指数分布的概率密度函数为

$f(x)=\lambda e^{-\lambda x}$

期望： $EX=\int_{0}^{\infty}x\lambda e^{-\lambda x}dx=-\int_{0}^{\infty}xd e^{-\lambda x}=\int_{0}^{\infty}e^{-\lambda x}dx=\frac{1}{\lambda}$

方差： $Var(X)=EX^2-(EX)^2=\int_{0}^{\infty}x^2\lambda e^{-\lambda x}dx-\frac{1}{\lambda^2}=\int_{0}^{\infty} 2xe^{-\lambda x}dx-\frac{1}{\lambda^2}$

$=\frac{1}{\lambda^2}$

性质：无记忆性： P(X>a+b)=P(X>a)P(X>b)

五、卡方分布

卡方分布是 n 个独立同分布的标准正态分布平方和的分布

$\chi ^2(n)$ 即 $Ga(\frac{n}{2} ,\frac{1}{2} )$

符号： $\chi ^2(n)$

概率密度函数： $Ga(\frac{n}{2} ,\frac{1}{2} )$ 代入即可

期望： $EX=\frac{n/2}{1/2}=n$

方差： $Var(X)=\frac{n/2}{1/4}=2n$

性质：可加性：若 $X\sim \chi ^2(n),Y\sim \chi ^2(m)$ 且 X 与 Y 独立，则 $Z=X+Y \sim \chi ^2(m+n)$

以上各个分布的性质证明需要用到特征函数，以后再补

六、Python应用

from scipy.stats import uniform, norm, expon, gamma, chi2
 
###########生成随机数###########
uniform.rvs(loc=1, scale=10, size=100)  # 1 到 1 + 10 的均匀分布随机数 100 个
norm.rvs(loc=1, scale=0.3, size=100)  # 均值为 1，标准差为 0.3 的正态分布随机数 100 个
expon.rvs(scale=0.5, size=10)  # lambda 为 2 的指数分布随机数 10 个
gamma.rvs(a=0.4, scale=0.5,size=100)  # alpha = 0.4, lambda=2 的伽玛分布随机数 100 个
chi2.rvs(k=100, size=10)  # n=100 的卡方分布随机数 10 个
 
 
###########计算概率###########
uniform.pdf(x=2, loc=1, scale=10, size=100)  # 1 到 1 + 10 的均匀分布在 x=2 处的概率密度
norm.pdf(x=2, loc=1, scale=0.3, size=100)  # 均值为 1，标准差为 0.3 的正态分布在 x=2 处的概率密度
expon.pdf(x=2, scale=0.5 size=10)  # lambda 为 2 的指数分布在 x=2 处的概率密度
gamma.pdf(x=2, scale=0.5, a=0.4, size=100)  # alpha = 0.4, lambda=2 的伽玛分布在 x=2 处的概率密度
chi2.pdf(x=2, k=100, size=10)  # n=100 的卡方分布在 x=2 处的概率密度
 
###########累积分布函数###########
uniform.cdf(x=2, loc=1, scale=10, size=100)  # 1 到 1 + 10 的均匀分布小于等于 2 的概率
norm.cdf(x=2, loc=1, scale=0.3, size=100)  # 均值为 1，标准差为 0.3 的正态分布小于等于 2 的概率
expon.cdf(x=2, scale=0.5, size=10)  # lambda 为 2 的指数分布小于等于 2 的概率
gamma.cdf(x=2, scale=0.5, a=0.4, size=100)  # alpha = 0.4, lambda=2 的伽玛分布小于等于 2 的概率
chi2.cdf(x=2, k=100, size=10)  # n=100 的卡方分布小于等于 2 的概率

注意到，在 Python 中伽玛分布与指数分布的参数 $\lambda$ 是通过指定 $\lambda$ 的倒数 scale 实现的