机器学习基础--math（22）--概率论基本知识

最新推荐文章于 2024-07-31 11:11:44 发布

whitenightwu

最新推荐文章于 2024-07-31 11:11:44 发布

阅读量257

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/wydbyxr/article/details/80821521

版权

数学专栏收录该内容

25 篇文章 5 订阅

订阅专栏

概率论基本知识

连续型随机变量分布

　　常见的连续型随机变量分布包括均匀分布（Uniform Distribution）、指数分布（Exponential Distribution）、正态分布等。

离散型随机变量分布

　　离散型随机变量分布常见的有伯努利分布（Bernoulli Distribution）、二项分布（Binomial Distribution）、泊松分布（Poisson Distribution）等，
　　参考资料（主要）：https://www.jiqizhixin.com/articles/2017-09-20-10

1）伯努利分布

　　一个伯努利分布只有两个可能的结果，记作 1（成功）和 0（失败），只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X，取值为 1 即成功的概率为 p，取值为 0 即失败的概率为 q 或者 1-p。

2）二项分布

　　如果存在一组相同的随机事件，即一组伯努利试验。那么某随机事件出现的次数即概率服从于二项分布，也称为多重伯努利分布。
　　任何一次试验都是互相独立的，前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p，n 是试验的总次数，p 是每一次试验的成功概率。
　　一个二项分布的性质为：
1. 每一次试验都是独立的；
2. 只有两个可能的结果；
3. 进行 n 次相同的试验；
4. 所有试验中成功率都是相同的，失败的概率也是相同的。”

3）泊松分布（Poisson分布）

　　泊松分布适合于描述单位时间（或空间）内随机事件发生的次数。
　　适用于事件发生的时间和地点随机分布的情况，其中我们只对事件的发生次数感兴趣。
　　泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。
　　泊松分布是二项分布n很大而p很小时的一种极限形式。
　　
　　泊松分布的主要特点为如下：
1. 任何一个成功事件不能影响其它的成功事件；
2. 经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率；
3. 时间间隔趋向于无穷小的时候，一个时间间隔内的成功概率趋近零。

　　在泊松分布中定义的符号有：
λ是事件的发生率；
t 是事件间隔的长度；
X 是在一个时间间隔内的事件发生次数。
设 X 是一个泊松随机变量，那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数，则 µ=λ*t；

　　举例：
　　如某一服务设施在一定时间内到达的人数，电话交换机接到呼叫的次数，汽车站台的候客人数，机器出现的故障数，自然灾害发生的次数，一块产品上的缺陷数，显微镜下单位分区内的细菌分布数等等。
　　排队问题，比如在等公交车排队，只有一个队伍，0时刻是没有人的，来了一个人，那么就变成1个人了，状态更新为1,过了段时间又来了一个人，就变成2人，状态又更新一次，一直这样重复下去。

　　泊松分布是二项分布n很大而p很小时的一种极限形式。
　　二项分布是说，已知某件事情发生的概率是p，那么做n次试验，事情发生的次数就服从于二项分布。
　　泊松分布是指某段连续的时间内某件事情发生的次数，而且“某件事情”发生所用的时间是可以忽略的。

　　例如，在五分钟内，电子元件遭受脉冲的次数，就服从于泊松分布。假如你把“连续的时间”分割成无数小份，那么每个小份之间都是相互独立的。在每个很小的时间区间内，电子元件都有可能“遭受到脉冲”或者“没有遭受到脉冲”，这就可以被认为是一个p很小的二项分布。而因为“连续的时间”被分割成无穷多份，因此n(试验次数)很大。所以，泊松分布可以认为是二项分布的一种极限形式。因为二项分布其实就是一个最最简单的“发生”与“不发生”的分布，它可以描述非常多的随机的自然界现象，因此其极限形式泊松分布自然也是非常有用的。