简单介绍几种常见的变量分布模型,用一句话概括就是,离散万物,皆可二项分布!
一、离散型随机变量
1.二项分布
在了解二项分布前,需要先了解伯努利试验。
伯努利试验E只有两种结果,则称为伯努利试验;将试验E独立重复地进行n此,则称这一串重复的独立试验为n重伯努利试验。
比如抛硬币,只有正反两种结果,这就是伯努利试验。满足伯努利试验的,就是二项分布。
独立做n次+就两种结果=n重伯努利试验
设在一次试验中,事件A发生的概率为p(0<p<1),则在n重伯努利试验中,事件A恰好发生 k 次的概率为:
这个公式被称作二项式概率公式,称随机变量X服从参数为n,p的二项分布,记作X~b(n,p)
(因为,刚好是二项式(p+q)
n
^n
n的展开式中出现p
k
^k
k的那一项)
以扔硬币为例,假设事件A是硬币正面朝上,那么解释这个公式就是,扔了n次,有k次正面朝上,正面朝上k次的概率是
p
k
p^k
pk,没有朝上的概率是
(
1
−
p
)
n
(1-p)^ n
(1−p)n
−
^-
−
k
^k
k。
2.(0-1)分布
顾名思义,随机变量X只可能取0和1两个值,就是0-1分布。所以其公式同二项分布公式之理,为
k=0,1,p+q=1(0<p<1)
0-1分布也是二项分布的一种,区别在于二项分布对试验次数没有限制,0-1分布只做一次。所以只抛一次的硬币实验也符合0-1分布。
3.泊松分布
泊松分布是一种统计与概率学里常见到的离散机率分布(discrete probability distribution)
泊松分布的概率函数为↓
当二项分布 **X~B(n,p)**的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的!
这里以在一定时间内某交通路口所发生的事故个数为例
为方便记,设所观察的这段时间为[0,1);L
i
_i
i表示时间段;取一个很大的自然数n,把时间段[0,1)分为等长的n段:
我们做如下两个假定:
1.在每段时间内,恰发生一个事故的概率,近似的与这段时间的长
1
/
n
1/n
1/n成正比,可设为 λ/n 。
也就是过了λ个时间段,会发生一次事故。
当n很大时,在这么短暂的一段时间内,要发生两次或者更多次事故是不可能的。在L
i
_i
i这段时间内不发生事故的概率为
2.各段是否发生事故是独立的
把在[0,1)时段内发生的事故数X视作在n个划分之后的小时段内有事故的时段数
按照上述两个假定,X应服从二项分布。于是,我们有
注意到当n取极限时,我们有
因此
从上述推导可以看出:泊松分布可作为二项分布的极限而得到。一般的说,若,其中n很大,p很小,因而不太大时,X的分布接近于泊松分布。这个事实有时可将较难计算的二项分布转化为泊松分布去计算。
说白了,泊松分布公式就是二项分布公式取了两个极限推导的结果。
二、连续型随机变量
1.均匀分布
在相同长度间隔的分布概率是等可能的。在(a,b)区间上概率密度1/(b-a),记作X~U(a,b)
2.指数分布
分布函数↓
有
图源:宋浩老师官方
λ参数越大,图形越凹
3.正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。
若随机变量X服从一个数学期望为μ、方差为σ
2
^2
2的正态分布,
记为N(μ,σ
2
^2
2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。
服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)
若随机变量X服从一个位置参数为 、尺度参数为
的概率分布,且其概率密度函数为
则这个随机变量就称为正态随机变量,正态随机变量服从的分布就称为正态分布.
记作读作
服从
或X服从正态分布。
μ表示对称轴,σ
2
^2
2表示方差;方差越大,数据量越分散,自然图形越扁平。正态分布是一个相当常见的分布规律,因为很多数据在变化过程中都有回归平均值μ的倾向。
以上内容仅为个人理解,如果有误,欢迎批评指正。