概率论-常见的概率分布模型

常见的概率分布模型

离散概率分布函数

  离散概率分布也称为概率质量函数(probability mass function),离散概率分布的例子有

    伯努利分布(Bernoulli distribution)

    二项分布(binomial distribution)

    泊松分布(Poisson distribution)

    几何分布(geometric distribution)等

连续概率分布函数

  连续概率分布也称为概率密度函数(probability density function),它们是具有连续取值(例如一条实线上的值)的函数,连续概率分布的例子有

    正态分布(normal distribution)

    指数分布(exponential distribution)

    β分布(beta distribution)等

联合分布函数

  给定一个随机变量 ( X , Y ) (X,Y) (X,Y),称定义域为整个平面的二元实值函数
F ( x , y ) = P ( X ≤ x , Y ≤ y ) − ∞ ≥ x , y ≤ ∞ F(x,y) = P(X\leq{x},Y\leq{y}) \quad -\infty\geq{x,y}\leq\infty F(x,y)=P(Xx,Yy)x,y
该二元实值函数为随机变量 ( X , Y ) (X,Y) (X,Y)的分布函数,也可以称为是 ( X , Y ) (X,Y) (X,Y)的联合分布函数。

  按照联合分布函数的定义, F ( x , y ) = P ( ( X , Y ) ∈ D x y ) F(x,y)=P((X,Y)\in{D_{xy}}) F(x,y)=P((X,Y)Dxy),其中 D x y D_{xy} Dxy如下图所示

在这里插入图片描述

多项分布(Multinomial Distribution)

多项分布简介

  多项分布是二项分布的推广,他们的区别是二项分布的结果只有 0 0 0 1 1 1两种,多项式的结果可以有多个值。

  多项分布的典型例子是掷骰子,6个点对应6个不同的数,每个点的概率都为 1 6 {\frac{1}{6}} 61

  与二项分布类似,多项分布来自于 ( p 1 + p 2 + ⋯ + p k ) n 多 项 式 的 展 开 (p_1+p_2+\cdots+p_k)^n多项式的展开 (p1+p2++pk)n

多项分布公式解析

  以掷骰子为例,掷骰子的时候掷 1 − 6 1-6 16的概率都为 1 6 {\frac{1}{6}} 61,记作 p 1 − p 6 p_1-p_6 p1p6,可以发现 p 1 + p 2 + p 3 + p 4 + p 5 + p 6 = 1 p_1+p_2+p_3+p_4+p_5+p_6=1 p1+p2+p3+p4+p5+p6=1,现在把 p 1 + p 2 + p 3 + p 4 + p 5 + p 6 p_1+p_2+p_3+p_4+p_5+p_6 p1+p2+p3+p4+p5+p6记作做一次抽样各种事件发生的概率和,即可得 ( p 1 + p 2 + p 3 + p 4 + p 5 + p 6 ) n = 1 n (p_1+p_2+p_3+p_4+p_5+p_6)^n=1^n (p1+p2+p3+p4+p5+p6)n=1n n n n次抽样所有事件相互组合对应的概率和,之后使用多项式展开(注:使用多项式定理展开,由于多项式定理不在本节提及范围内,不多赘述),如果它不是掷骰子,而是一个有 n n n种可能的问题,会得到一个多项式展开的公式
P ( X 1 = x 1 , … , X k = x k ) = { n ! x 1 ! ⋯ x k ! ( p x 1 ⋯ p x k ) w h e n ∑ i = 1 k x i = n 0 o t h e r w i s e P(X_1 = x_1,\ldots,X_k = x_k) = \begin{cases} {\frac{n!}{x_1!\cdots{x_k!}}}(p^{x_1}\cdots{p^{x_k})} \quad when\sum_{i=1}^kx_i=n\\ 0 \quad otherwise \\ \end{cases} P(X1=x1,,Xk=xk)={x1!xk!n!(px1pxk)wheni=1kxi=n0otherwise
这个多项式表示 X 1 X_1 X1出现 x 1 x_1 x1次, X 2 X_2 X2出现 x 2 x_2 x2次, … \ldots X k X_k Xk出现 x k x_k xk次的出现概率,这样就得到了上述所示的多项分布的多项展开式公式。

伯努利分布(Bernoulli Distribution)

伯努利分布简介

  伯努利分布是一个二值离散分布,结果只有 0 0 0 1 1 1两种。

  随即变量 X X X 1 1 1的概率为 p p p,则为 0 0 0的概率为 q = 1 − p q=1-p q=1p,可以用公式表示为
f ( x ) = p x ( 1 − p ) 1 − x = { p , x = 1 1 − p , x = 0 f(x) = p^x(1-p)^{1-x} = \begin{cases} p, \quad\quad x=1 \\ 1-p, \quad x=0 \\ \end{cases} f(x)=px(1p)1x={p,x=11p,x=0

伯努利分布的期望值和方差

  伯努利分布的期望值为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ E(X) & = \sum_…
  伯努利分布的方差为
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ D(x) & = \sum_…

正态(高斯)分布(Normal(Gaussian) Distribution)

正态分布的概率密度函数图像

  其中红线表示的是标准正态分布图像。

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

mu1 = 0
sig1 = 1
mu2 = 0
sig2 = 2

x = np.arange(-5, 5, 0.1)
y1 = stats.norm.pdf(x, mu1, sig1)
y2 = stats.norm.pdf(x, mu2, sig2)
plt.plot(x, y1, 'r-', label='$\mu=0,\sigma^2=1$')
plt.plot(x, y2, 'b-', label='$\mu=0,\sigma^2=2$')
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yynJzXOB-1583492968037)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_21_0.png)]

正态分布简介

  正态分布也称作高斯分布,是最常见的一种分布,其概率密度函数为
f ( x ; μ , σ ) = 1 2 π σ 2 e ( − ( x − μ ) 2 2 σ 2 ) f(x;\mu,\sigma) = {\frac {1} {\sqrt{2\pi\sigma^2}} } e^{(-{\frac {(x - \mu)^2} {2\sigma^2}})} f(x;μ,σ)=2πσ2 1e(2σ2(xμ)2)
  如果一个随即变量 X X X服从该分布,可以写作 X   N ( μ , σ 2 ) N ( μ , σ 2 ) X ~ { N(\mu ,\sigma ^{2})} N(\mu, \sigma^2) X N(μ,σ2)N(μ,σ2)

  当 μ = 0 , σ = 1 \mu=0,\sigma=1 μ=0,σ=1时的正态分布称作标准正态分布,这个分布能简化为
f ( x ) = 1 2 π   exp ⁡ ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right) f(x)=2π 1exp(2x2)
  标准正态分布曲线区间面积计算
f ( ∣ x − μ ∣ < σ ) = 0.6826 f ( ∣ x − μ ∣ < 2 σ ) = 0.9544 f ( ∣ x − μ ∣ < 3 σ ) = 0.9974 f(|x-\mu|<\sigma) = 0.6826 \\ f(|x-\mu|<2\sigma) = 0.9544 \\ f(|x-\mu|<3\sigma) = 0.9974 \\ f(xμ<σ)=0.6826f(xμ<2σ)=0.9544f(xμ<3σ)=0.9974

中心极限定理与正态分布

  1. 中心极限定理1:把许多未知的小作用加起来看作一个变量,这个变量服从正态分布
  2. 中心极限定理2:“大量统计独立的随即变量的和”的分布趋于正态分布

泊松分布(Poisson Distribution)

泊松分布的概率质量函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

lambd = 2.5

x = np.arange(0, 10)
y = stats.poisson.pmf(x, lambd)
plt.plot(x, y, label='$\lambda=2.5$')
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-btaEJP6o-1583492968038)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_28_0.png)]

二项分布(Binomial Distributio)

二项分布的概率质量函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

n = 8
p = 0.4

x = np.arange(0, 20)
y = stats.binom.pmf(x, n, p)
plt.plot(x, y, 'o-', label='$n=8,p=0.4$')
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XFLNryGl-1583492968038)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_31_0.png)]

二项分布简介

  二项分布是 n n n次独立的二值实验(伯努利实验)中成功的次数的离散值概率分布( n n n次伯努利实验,一次伯努利实验得到一个伯努利分布)。

  随机变量 X X X服从参数 n n n p p p的二项分布记作: B ( n , p ) B(n,p) B(n,p) n n n次实验中 k k k次成功的概率质量函数为
f ( k ; n , p ) = C n k p k ( 1 − p ) n − k f(k;n,p) = C_n^kp^k(1-p)^{n-k} f(k;n,p)=Cnkpk(1p)nk
其中 C n k C_n^k Cnk是二项式系数: C n k = n ! k ! ( n − k ) ! C_n^k = {\frac{n!}{k!(n-k)!}} Cnk=k!(nk)!n!

  二项分布来源于牛顿二项式
( a + b ) n = ∑ k = 0 n C n k a k b n − k (a+b)^n = \sum_{k=0}^nC_n^ka^kb^{n-k} (a+b)n=k=0nCnkakbnk

二项分布与伯努利分布

  1. 二项分布的期望是伯努利分布期望的 n n n
    E ( x ) = n p E(x) = np E(x)=np
  2. 二项分布的方差是伯努利分布方差的 n n n
    D ( x ) = n p ( 1 − p ) D(x) = np(1-p) D(x)=np(1p)

贝塔分布(Beta Distribution)

贝塔分布的概率密度函数图像

from scipy import stats
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

a = 0.4
b = 0.6

x = np.arange(0.01, 1, 0.01)
y = stats.beta.pdf(x, a, b)
plt.plot(x, y, label='a=0.4,b=0.6')
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ym90VrvS-1583492968039)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_38_0.png)]

几何分布(负二项分布)(Geometric Distribution)

几何分布概率质量函数图像

狄利克雷分布(多项分布的共轭分布)(Dirichlet distribution)

超几何分布(Hypergeometric Distribution)

指数分布(Exponential Distribution)

指数分布概率密度函数图像

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
%matplotlib inline

lambd = 0.6

x = np.arange(0, 10, 0.1)
y = lambd * np.exp(-lambd*x)
plt.plot(x, y, label='$\lambda=0.6$')
plt.legend()
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wWZJGJ8T-1583492968039)(%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_files/%E6%A6%82%E7%8E%87%E8%AE%BA-%E5%B8%B8%E8%A7%81%E7%9A%84%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E6%A8%A1%E5%9E%8B_45_0.png)]

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python是数据科学和机器学习领域中非常流行的语言,其中有许多强大的库支持概率论和统计模型的实现。其中两个核心库是NumPy和SciPy,它们提供了大量的数学函数和算法,而更高级的库如Pandas用于数据处理,matplotlib和seaborn则用于数据可视化。 在概率论方面,你可以使用: 1. `numpy.random`模块:提供了各种随机数生成器,如均匀分布、正态分布等。 2. `scipy.stats`模块:包含许多概率分布和统计测试函数,比如计算累积分布函数(CDF)、概率密度函数(PDF)或进行假设检验。 3. `statsmodels`库:提供更高级的统计模型,如线性回归、时间序列分析、以及各种假设检验。 在统计模型方面,有: 1. `sklearn`(scikit-learn):这是机器学习的基础库,包含了诸如线性回归、决策树、聚类算法、分类器等常用统计模型。 2. `pandas`的数据框结构非常适合数据探索和预处理,这对于构建统计模型至关重要。 3. `pyMC3`和`Stan`:用于构建和估计贝叶斯模型的库,支持概率编程。 4. `TensorFlow Probability`或`Edward`:如果你需要在深度学习背景下使用概率模型,这些库提供了概率模型和自动概率编程功能。 如果你对某个特定的统计模型概率方法感兴趣,例如贝叶斯网络、马尔可夫链蒙特卡洛(MCMC)或时间序列分析,请告诉我,我可以为你提供更详细的介绍和代码示例。另外,还有许多用于机器学习的高级库,如`Keras`和`TensorFlow`,它们也支持概率相关的组件。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值